金丝雀技巧：在 Claude（或任何 AI 智能体）开始幻觉之前抓住它

一个一行就能搞定的技巧，让你知道 AI 编程智能体何时开始退化：让它每条回复都以一个名字开头。名字消失了，金丝雀就死了，该开新会话了。适用于 Claude、Codex、Antigravity CLI、Mistral Vibe 等所有 LLM。

2026年6月18日

与 AI 编程智能体的长会话很少会一下子崩掉。Claude 不会在一轮对话里就从犀利跌到胡说。它先是悄悄跳过一条小指令。再过一两轮，就开始编造：不存在的文件、从未有过的 API、你明确否决过的决定。等你察觉到一个幻觉出来的路径时，你对最近几条回复的信任早已丧失，正在调试智能体而不是你的代码。

有一个免费、简单到近乎令人尴尬的办法可以拿到提前预警。它叫金丝雀，一行就能装好。

智能体为什么会跑偏：上下文腐烂（context rot）

每一轮，智能体都会从第一条消息到最后一条重读整段对话，从零重建它的理解。随着上下文窗口被填满，最先松动的就是对指令的遵守。模型听上去依旧自信，却已经开始丢掉最不重要的约束来勉强跟上。研究者称之为「context rot」，以及与之相关的「lost in the middle」效应：上下文越长，模型越难可靠地遵守埋在其中的某一条指令。

这就是关键洞见。退化不是从幻觉开始的，而是从模型悄悄忽略一条小指令开始的。所以，如果你埋下一条小指令，它唯一的职责就是在消失时被你注意到，你就得到了一根会在真正的破坏出现之前触发的绊线。

金丝雀技巧是什么

过去矿工下井时会带着一只金丝雀。这种鸟对毒气比人更敏感：一旦它停止鸣叫，矿工就知道要趁自己还没有任何感觉时赶紧撤离。

提示词里的金丝雀也是同一个思路。你往智能体每轮都会读的文件里加一条微不足道的指令：每条回复都以一个选定的名字开头。这个名字就是你的金丝雀。只要它出现在每条回复的开头，模型就还在读、还在遵守你的指令。第一条忘掉名字的回复，就是会话开始退化的信号，通常出现在真正的幻觉之前一两轮。这一手法在智能体编程社区里被 OpenClaw 的作者 Peter Steinberger 这样的开发者推广开来，他们依靠细小的金丝雀信号，及早抓住正在变坏的会话。

一条曲线，展示 AI 智能体在长会话中遵守指令的可靠性如何下降：金丝雀指令在幻觉开始之前就消失，留下一个提前预警的窗口。

金丝雀在幻觉开始之前就消失了。那段空隙就是你做出反应的窗口。

一行装好

把指令放进智能体每轮都会加载的文件里：

Claude Code 读取 CLAUDE.md。
Codex、Antigravity CLI、Mistral Vibe 以及大多数其他 CLI 读取 AGENTS.md。

## 金丝雀
每条回复都以名字 "Felix" 开头。

挑一个简短而醒目的名字：你的猫、一种颜色，任何能让你在回复开头一眼认出的东西。务必保持极简。复杂的指令会适得其反，因为你要的正是模型最容易丢掉的那种东西。如果连这个都掉了，你上下文里更微妙的部分早就岌岌可危了。

金丝雀死了该怎么办

名字本身从来不是重点，重点是时机。金丝雀一消失，就别再硬推当前这条线：

不要再信任最近两三条回复，带着怀疑重读一遍。
执行 /clear，或者开一个新会话。
只重新注入真正要紧的上下文：你正在编辑的文件、目标，以及已经做出的决定。

带着精炼简报的干净窗口，每次都胜过臃肿的窗口。你并没有丢掉进度，只是甩掉了一直拖累模型的累赘。

决策环：读智能体的回复，检查它是否以名字开头。是，则金丝雀还活着，继续干活。否，则金丝雀已死，于是清空上下文或开新会话，并重新注入关键上下文。

整个习惯就装在一个环里：瞥一眼第一个词，做决定，继续或重置。

它适用于每一个模型，不只是 Claude

这个技巧在设计上就与厂商无关。Claude、Codex、Antigravity CLI、Mistral Vibe、Grok 和 Aider 都受同样的上下文限制，都会读一个上下文文件，也都能携带金丝雀。我们先聚焦 Claude，因为它是当下最常用的编程智能体，但这里没有任何东西是 Claude 专属的。任何会把上下文填满的 LLM 都会先丢掉你最小的那条指令，所以同一只金丝雀能守护它们每一个。如果你维护着一个 AGENTS.md 上下文文件，金丝雀不过是其中多出的一行。

在整支队伍上盯住金丝雀

只有一个智能体时，逐条回复去找缺失的名字很容易。同时跑好几个时就扩展不了了，而如今严肃的工作恰恰就发生在那里。

这正是 AgentsRoom 让它变简单的地方。它是一个多智能体驾驶舱：每个智能体都有角色、实时状态点和自己的颜色，你在一个窗口里就能监管整支队伍。把金丝雀往共享的 CLAUDE.md 或 AGENTS.md 里放一次，每个智能体都会继承它。一旦某个智能体开始漏掉名字，你一眼就能抓住，并且只重置那一条线，而不是整个项目。可选的 git worktree 隔离能在此过程中防止并行的智能体彼此踩脚。

AgentsRoom 干脆把这个技巧直接做进了产品里，所以你甚至不必自己盯着回复。它启动的每个智能体本就会在每轮结束时写一行状态，AgentsRoom 把那当作 canary：当一个智能体连续两轮停止更新它，那个智能体的终端上方就会出现一条警告，附带在干净上下文上的一键重启和一条压缩提醒。你会自动拿到提前预警，在每个智能体上，覆盖整支队伍。它如何工作，详见上下文漂移检测页面。

七家厂商，一个驾驶舱，一只金丝雀守着它们每一个。下载 AgentsRoom，查看厂商兼容性矩阵了解每个智能体支持什么，并进一步阅读多厂商支持，看看会话中途切换如何让你的上下文保持完好。