金丝雀技巧:在 Claude(或任何 AI 智能体)开始幻觉之前抓住它
一个一行就能搞定的技巧,让你知道 AI 编程智能体何时开始退化:让它每条回复都以一个名字开头。名字消失了,金丝雀就死了,该开新会话了。适用于 Claude、Codex、Gemini CLI、Mistral Vibe 等所有 LLM。
与 AI 编程智能体的长会话很少会一下子崩掉。Claude 不会在一轮对话里就从犀利跌到胡说。它先是悄悄跳过一条小指令。再过一两轮,就开始编造:不存在的文件、从未有过的 API、你明确否决过的决定。等你察觉到一个幻觉出来的路径时,你对最近几条回复的信任早已丧失,正在调试智能体而不是你的代码。
有一个免费、简单到近乎令人尴尬的办法可以拿到提前预警。它叫金丝雀,一行就能装好。
智能体为什么会跑偏:上下文腐烂(context rot)
每一轮,智能体都会从第一条消息到最后一条重读整段对话,从零重建它的理解。随着上下文窗口被填满,最先松动的就是对指令的遵守。模型听上去依旧自信,却已经开始丢掉最不重要的约束来勉强跟上。研究者称之为「context rot」,以及与之相关的「lost in the middle」效应:上下文越长,模型越难可靠地遵守埋在其中的某一条指令。
这就是关键洞见。退化不是从幻觉开始的,而是从模型悄悄忽略一条小指令开始的。所以,如果你埋下一条小指令,它唯一的职责就是在消失时被你注意到,你就得到了一根会在真正的破坏出现之前触发的绊线。
金丝雀技巧是什么
过去矿工下井时会带着一只金丝雀。这种鸟对毒气比人更敏感:一旦它停止鸣叫,矿工就知道要趁自己还没有任何感觉时赶紧撤离。
提示词里的金丝雀也是同一个思路。你往智能体每轮都会读的文件里加一条微不足道的指令:每条回复都以一个选定的名字开头。这个名字就是你的金丝雀。只要它出现在每条回复的开头,模型就还在读、还在遵守你的指令。第一条忘掉名字的回复,就是会话开始退化的信号,通常出现在真正的幻觉之前一两轮。这一手法在智能体编程社区里被 OpenClaw 的作者 Peter Steinberger 这样的开发者推广开来,他们依靠细小的金丝雀信号,及早抓住正在变坏的会话。
金丝雀在幻觉开始之前就消失了。那段空隙就是你做出反应的窗口。
一行装好
把指令放进智能体每轮都会加载的文件里:
- Claude Code 读取
CLAUDE.md。 - Codex、Gemini CLI、Mistral Vibe 以及大多数其他 CLI 读取
AGENTS.md。
## 金丝雀
每条回复都以名字 "Felix" 开头。
挑一个简短而醒目的名字:你的猫、一种颜色,任何能让你在回复开头一眼认出的东西。务必保持极简。复杂的指令会适得其反,因为你要的正是模型最容易丢掉的那种东西。如果连这个都掉了,你上下文里更微妙的部分早就岌岌可危了。
金丝雀死了该怎么办
名字本身从来不是重点,重点是时机。金丝雀一消失,就别再硬推当前这条线:
- 不要再信任最近两三条回复,带着怀疑重读一遍。
- 执行
/clear,或者开一个新会话。 - 只重新注入真正要紧的上下文:你正在编辑的文件、目标,以及已经做出的决定。
带着精炼简报的干净窗口,每次都胜过臃肿的窗口。你并没有丢掉进度,只是甩掉了一直拖累模型的累赘。
整个习惯就装在一个环里:瞥一眼第一个词,做决定,继续或重置。
它适用于每一个模型,不只是 Claude
这个技巧在设计上就与厂商无关。Claude、Codex、Gemini CLI、Mistral Vibe、Grok 和 Aider 都受同样的上下文限制,都会读一个上下文文件,也都能携带金丝雀。我们先聚焦 Claude,因为它是当下最常用的编程智能体,但这里没有任何东西是 Claude 专属的。任何会把上下文填满的 LLM 都会先丢掉你最小的那条指令,所以同一只金丝雀能守护它们每一个。如果你维护着一个 AGENTS.md 上下文文件,金丝雀不过是其中多出的一行。
在整支队伍上盯住金丝雀
只有一个智能体时,逐条回复去找缺失的名字很容易。同时跑好几个时就扩展不了了,而如今严肃的工作恰恰就发生在那里。
这正是 AgentsRoom 让它变简单的地方。它是一个多智能体驾驶舱:每个智能体都有角色、实时状态点和自己的颜色,你在一个窗口里就能监管整支队伍。把金丝雀往共享的 CLAUDE.md 或 AGENTS.md 里放一次,每个智能体都会继承它。一旦某个智能体开始漏掉名字,你一眼就能抓住,并且只重置那一条线,而不是整个项目。可选的 git worktree 隔离能在此过程中防止并行的智能体彼此踩脚。
七家厂商,一个驾驶舱,一只金丝雀守着它们每一个。下载 AgentsRoom,查看厂商兼容性矩阵了解每个智能体支持什么,并进一步阅读多厂商支持,看看会话中途切换如何让你的上下文保持完好。
下载 AgentsRoom
在一个窗口中运行你所有项目的 Claude 智能体。
配套应用:随时随地监控你的 Agent
使用 Claude、Codex、Gemini CLI 或其他 AI 提供商。
把 Bug 和需求直接发送到您的公开待办清单。
AgentsRoom 实际运行一瞥。