Claude Code token usage,
按会话实时追踪
AgentsRoom 在每个 agent 终端中监视你的 Claude Code token usage。Composer 旁边有一个小型 token 计数器,会实时更新。当某个 Claude 会话的 token 消耗过高时,徽章会变红,在你冲破上下文窗口之前提醒你。
点击徽章后会话监控面板会打开:input tokens、output tokens、cache reads、cache writes、cache hit rate、消息数、路由模型、会话时长、工具调用次数。一个面板,一个 Claude 会话,所有驱动 Claude Code token usage 的数据。
AgentsRoom 中 Claude Code token usage 徽章的实时演示:它位于每个 agent 的 composer 中,token 消耗过高时变红,并打开包含 input tokens、output tokens、cache reads 和 cache writes 的完整会话监控面板。
Claude Code token usage 是运行 AI 编程 agent 时最大的可变成本。每个 prompt、每次工具调用、每次 CLAUDE.md 重新注入都会消耗 token。如果没有可见性,你只会在 API 限流或账单到来时才发现自己已经爆了预算。AgentsRoom 在每个 agent 会话上加了一个实时的 Claude Code token usage 计量器,让你看到正在发生的消耗,而不是事后才知道。
Token 计数器位于终端 composer 中,紧挨着发送按钮。它在每次 Claude 回合后几秒内更新。Token 在整个会话中累加:input tokens、output tokens、cache writes 和 cache reads,全部求和并按颜色编码,让你一眼读懂。当按会话的 Claude Code token usage 越过重消耗阈值时,徽章会翻红并显示警告图标,就像油表在油箱见底前提醒你一样。
点击它,会话监控面板就会打开。你能获得活跃 Claude 会话的实时快照:从首条消息开始的时长、用户 prompt 数对比 assistant 回合数、工具调用次数、处理对话的模型、Claude 会话 id(可一键复制用于 --resume),以及完整的 token 明细。Cache hit rate 实时计算,按绿/琥珀/红配色,并附一行提示说明 cache reads 大约比新鲜 input 便宜十倍。这一个面板就把 Claude Code token usage 从黑盒变成了实时仪表。
为什么按会话的 Claude Code token usage 很重要
大多数 Claude 包装器只在账户层级报告 token 使用情况,每天一次,在你必须主动打开的仪表板里。等你看到的时候伤害已经造成。AgentsRoom 把 Claude Code token usage 推到表面,放在每一个 agent 终端上,让你无法忽视。Token 计数器距离发送按钮只有两厘米。你看它就像看手机上的未读徽章一样自然。
按会话是合适的粒度。一队并行运行的 agent 不会告诉你谁在烧 token。一个 agent 可能卡在一个 prompt 上反复循环,而另外四个安静无事。有了按会话的 Claude Code token usage 计量器,吵闹的那个 agent 会立刻凸显出来:它的徽章是红的,cache hit rate 很低,消息数飞涨。你跳进去,改 prompt,省下预算。
整个功能都是本地的。AgentsRoom 直接从 Claude 写到 ~/.claude/projects/ 的 JSONL transcripts 中读取你的 Claude Code token usage。任何数据都不会离开你的机器。没有第三方使用追踪器。API 前面没有代理。AgentsRoom 中的 token 计数器只是 Anthropic 已经写在你磁盘上的数据的一种更快、更可见的读法。

AgentsRoom 中的 Claude Code token usage 面板。点击任何 agent composer 中按会话的 token 徽章,获取所有重要数据,以及降低 token 消耗的小贴士。
Claude Code token usage 面板显示的内容
点击 token 徽章一次,就会打开活跃 Claude 会话的实时监控面板。下面是你能看到的每一个数据。
会话时长
活跃 Claude 会话首条消息和最后一条消息之间的时长,实时刷新。便于发现已经反复嚼上下文几个小时的 agent。
实时 agent 状态
空闲、工作中、完成或需要输入。状态与 token 计数器配对,让你一眼看出哪个 Claude 会话在消耗,哪个只是在闲置。
消息和 assistant 回合数
活跃 Claude 会话中用户 prompt 数对比 assistant 回合数。比例失衡是 agent 进入循环或你的 prompt 太模糊的强烈信号。
工具调用次数
Claude 在会话中执行的 Read、Edit、Bash、Grep、Glob 等工具调用总数。工具调用占了 input tokens 的大头,所以这个数字与 Claude Code token usage 紧密相关。
所用模型
会话中处理过任何回合的每个 Claude 模型:Sonnet、Opus、Haiku 及带日期的变体。AgentsRoom 会去重并简化名称,让你立刻看出会话是否被自动路由到了多个模型。
Claude 会话 id
Claude 内部会话标识符,一键可复制。用它可以通过 claude --resume 从 CLI 恢复同一个对话而不丢失上下文。
Input tokens
会话期间发送给 Claude 的新鲜 input tokens,未经任何缓存复用。这是你 Claude Code token usage 中最贵的一项。
Output tokens
Claude 在会话中生成的 token。Output tokens 的计费比 input 高,所以高数值却没有进展意味着 agent 在空转。
Cache writes
Claude 在会话期间写入 prompt cache 的 token。Cache writes 的费用略有溢价,但能在后续回合解锁便宜的 cache reads。
Cache reads
从 prompt cache 提供的 token,而不是按新鲜 input 重新计费。Cache reads 大约比 input tokens 便宜 10 倍,这就是为什么 cache hit rate 是 Claude Code token usage 的首要指标。
Cache hit rate
从 cache 提供的 input 侧 token 占比,超过 70% 显示绿色,30% 到 70% 之间显示琥珀色,低于 30% 显示红色。越高越省钱。这是 Claude Code token usage 上最有效的杠杆。
Total tokens
活跃会话中 input、output、cache writes 和 cache reads 的累计总和。作为单一的概览数字,便于跨 agent 比较 token 消耗。
为什么 token 计量器会变红
AgentsRoom 在每次轮询时检查你按会话的 Claude Code token usage。当累计总数越过重消耗阈值时,徽章会翻红并显示警告图标。这是提示你打开会话监控面板,决定要怎么做:compact、fork 一个新 agent、切换模型,或者干脆完成任务并收尾。
红色不是硬性上限。AgentsRoom 不会节流你的 agent 或中断运行。这只是针对单个 agent 的视觉提示,让失控的循环不会在你专注另一个窗口时悄悄掏空你的 Anthropic 预算。Cache hit rate 健康的长会话完全没问题,会保持绿色。
AgentsRoom 如何追踪 Claude Code token usage
三层结构:usage 轮询器、JSONL 解析器和实时 UI。
轮询器每 15 秒读取一次 token 总数
后台任务从你本地的 Claude 状态中读取按会话的 token 使用量,并推送到渲染进程的 store。API 上没有代理,没有额外的网络调用。只是对 Claude 已经写到磁盘的数据的一种更快、更可见的读法。
弹窗打开时 JSONL 解析器每 10 秒刷新一次
会话监控面板会增加一次性的 IPC 调用,遍历活跃 Claude 会话的 JSONL transcript,计算消息数、assistant 回合数、工具调用次数、路由模型以及首/末时间戳。面板在屏幕上时刷新每 10 秒运行一次,这样数据保持实时,又不会让解析器在每次渲染轮询时被拖累。
实时 UI:徽章加会话监控
终端 composer 中的徽章读取 token 总数并决定显示绿色还是红色。点击它,会话监控面板就会以 portal 形式打开,覆盖整个窗口。数字带千位分隔符,cache hit rate 带颜色,提示区会建议你如何减少消耗。
降低 Claude Code token usage 的小贴士
会话监控面板会根据你实时的 cache hit rate 上下文化地展示这些小贴士。一键即可把任何一条直接发送到 agent 终端。
Cache hit rate 偏低:稳定 prompt 前缀
低于 30% 时,Claude 每个回合都按完整 input 价格付费。会话中途编辑 CLAUDE.md、切换模型或重排早期系统消息都会破坏缓存。锁定 prompt 顶部,看着 cache hit rate 爬升。
用 /compact 而不是 /clear
/clear 会清空对话,强制下一回合按完整 input 计费。/compact 保留任务并把历史压缩成摘要,缓存前缀得以保留。同样的清爽感,更低的 Claude Code token usage。
局部 Read,而不是整文件
对于超过 100 行的文件,让 agent 使用带 offset 和 limit 的 Read,或先 grep 符号。每个回合都加载一个 4000 行的文件是 Claude Code token usage 中最隐蔽的头号黑洞。
用 Edit 而不是 Write
Edit 工具只把 diff 发回给 Claude。Write 会重传整个文件。在一个 600 行的组件上,这会让 output tokens 翻倍,并撑大下一回合的 input。
为大范围搜索派生 sub-agent
在数百个文件上 Glob 和 Grep 会把大量噪声倒进你的主上下文。Agent 工具在自己的上下文窗口中运行,只返回摘要,从而保持父 prompt 紧凑。
精简你的 CLAUDE.md
CLAUDE.md 会被前置到每个回合。其中每段无用的内容都按缓存 input token 数乘以消息数计费。把长上下文移到 context/,按需引用。
AgentsRoom token 计量器 vs 原生 Claude Code
原生 Claude Code 在会话结束时才显示 token 总数,藏在你必须向上滚动才能看到的底部小行里。没有实时计量器。没有按会话的明细。没有一眼可见的 cache hit rate。消耗激增时没有警告。你只能事后才发现超量,等到 API 限流或月账单太高的时候。
AgentsRoom 把 Claude Code token usage 变成一等信号。每个 agent 都有自己的 token 计数器。超量时变红。点击查看完整明细。Cache hit rate 实时计算。小贴士读取你的实时数据并提供现成的 prompt 来修复泄漏。同样的 Claude 会话,同样的 JSONL transcripts,但具备一队并行 agent 真正需要的可见性。
Claude Code token usage 计量器拯救你的场景
三个真实场景,按会话 token 追踪器立刻物有所值。
Agent 卡在循环中
一个 agent 一直在反复读取同一个文件,反复尝试同一个修复。它的 token 徽章在几分钟内变红,cache hit rate 直线下跌,消息比例失衡。你在仪表板上发现它,跳进去,重写 prompt,省下预算。
长任务进展顺利
重构进行了三小时,你想知道 agent 是否还在正轨上。打开会话监控面板:700 条消息,180 次工具调用,78% cache hit rate,全绿。Token 消耗绝对值高,但效率正常。让它继续做。
整夜批量运行
你睡觉时五个 agent 在处理积压任务。早晨,按会话的 token usage 告诉你哪个高效、哪个进入循环、哪个用完了上下文。两分钟分诊完毕,无需逐条阅读 transcript。
Claude Code token usage 计量器只是一个更大监控面的一部分。实时 agent 状态、Dock 角标和移动推送通知共同构成完整画面。
了解 AgentsRoom 如何监控 AI agentFAQ
Claude Code token usage 追踪器准确吗?
准确。AgentsRoom 读取的是 Claude 自己写到 ~/.claude/projects/ 的同一份 JSONL transcripts。Input tokens、output tokens、cache writes 和 cache reads 都直接来自 Anthropic 在每条消息中发出的 usage 负载。没有估算,没有代理,没有四舍五入。会话监控面板上的数字与 Anthropic 的账单一致。
Token 计数器会拖慢我的 agent 吗?
不会。轮询器每 15 秒读取本地文件。JSONL 解析只在会话监控面板打开时运行,每 10 秒一次。没有额外的对 Anthropic 的网络调用,没有注入到 Claude 的探针,工具调用上没有任何额外开销。你的 agent 满速运行。
徽章什么时候变红?
当按会话的 Claude Code token usage 累计值越过为正常长篇编程会话调过的重消耗阈值时。该阈值足够保守,闲置会话不会触发;又足够紧,失控循环在几个回合内就会变红。红色是警告,不是节流。
为什么 cache hit rate 这么重要?
Cache reads 大约比新鲜 input tokens 便宜 10 倍。一个 cache hit rate 为 80% 的会话大约比同一个会话在 0% 时便宜五倍。Cache hit rate 是 Claude Code token usage 上最有效的杠杆。AgentsRoom 实时显示它,让你能在会话中途纠正航向,而不是等到结束才发现问题。
也支持 Codex、Gemini、OpenCode 和 Aider 吗?
目前形式下的会话监控面板是 Claude 专属的,因为它读取的是 Claude 的 JSONL transcripts,而 prompt-cache 明细是 Claude 独有的计费特性。状态、角色和通知对每个提供商都可用。我们在路线图中跟踪了与提供商无关的 usage 支持。
AgentsRoom 会把我的 Claude Code token usage 发送到服务器吗?
不会。Token 计数器、会话监控面板和 cache hit rate 全部在你的 Mac 上从本地文件计算。任何数据都不会离开你的机器。如果你启用了到移动端配套应用的可选加密同步,只有你明确选择镜像的数据才会被发送,并且通过 AgentsRoom 中继做端到端加密。
可以把小贴士保存为可复用的 prompt 吗?
可以。会话监控面板里的每条小贴士都有一个 Fix this 按钮,会打开一个可编辑的现成 prompt。直接发送到 agent 终端、复制到剪贴板,或保存到全局 prompt 库,让同一个修复在每个项目上都一键可用。
别再猜你的 Claude Code token usage
下载 AgentsRoom,让每个 Claude agent 都拥有按会话的实时 token 计量器。超量时变红,一眼可见的 cache hit rate,降低消耗的小贴士。全部本地,全部属于你。
配套应用:随时随地监控你的 Agent
支持 Claude、Codex、OpenCode、Gemini CLI 和 Aider
把 Bug 和需求直接发送到您的公开待办清单。