L'astuce du canari : repérer quand Claude (ou n'importe quel agent IA) commence à halluciner

Une astuce d'une ligne pour savoir quand votre agent de code IA se dégrade : faites-lui commencer chaque réponse par un prénom. Quand le prénom disparaît, le canari est mort, il est temps de relancer une session. Fonctionne avec Claude, Codex, Antigravity CLI, Mistral Vibe et tous les LLM.

18 juin 2026

Une longue session avec un agent de code IA casse rarement d'un coup. Claude ne passe pas de net à délirant en un seul tour. D'abord, il saute discrètement une petite instruction. Un tour ou deux plus tard, il se met à inventer : un fichier qui n'existe pas, une API qui n'a jamais existé, une décision que vous aviez explicitement écartée. Le temps que vous repériez un chemin halluciné, vous avez déjà perdu confiance dans les dernières réponses, et vous déboguez l'agent au lieu de votre code.

Il existe un moyen gratuit, presque gênant de simplicité, d'obtenir une alerte précoce. Ça s'appelle un canari, et ça se met en place en une ligne.

Pourquoi les agents déraillent : le context rot

À chaque tour, l'agent relit toute la conversation, du premier message au dernier, et reconstruit sa compréhension de zéro. À mesure que la fenêtre de contexte se remplit, le respect des instructions est la première chose qui lâche. Le modèle a toujours l'air sûr de lui, mais il a commencé à abandonner les contraintes les moins importantes pour suivre. Les chercheurs appellent ça le « context rot », et l'effet « lost in the middle » qui va avec : plus le contexte est long, moins le modèle honore de façon fiable une instruction enfouie dedans.

C'est là toute l'idée. La dégradation ne commence pas par les hallucinations. Elle commence par le modèle qui ignore silencieusement une petite instruction. Donc si vous plantez une petite instruction dont le seul rôle est de se faire remarquer quand elle disparaît, vous obtenez un fil-piège qui se déclenche avant les vrais dégâts.

En quoi consiste l'astuce du canari

Les mineurs descendaient autrefois avec un canari. L'oiseau était plus sensible aux gaz toxiques que les humains : quand il arrêtait de chanter, les mineurs savaient qu'il fallait remonter, bien avant de ressentir quoi que ce soit eux-mêmes.

Un canari de prompt, c'est la même idée. Vous ajoutez une instruction triviale au fichier que votre agent lit à chaque tour : commencer chaque réponse par un prénom choisi. Ce prénom est votre canari. Tant qu'il apparaît en tête de chaque réponse, le modèle lit et respecte encore vos instructions. La première réponse qui oublie le prénom est votre signal que la session se dégrade, en général un tour ou deux avant l'apparition des vraies hallucinations. La technique a été popularisée dans la communauté du code agentique par des développeurs comme Peter Steinberger, créateur d'OpenClaw, qui s'appuient sur de petits signaux canaris pour repérer tôt une session qui tourne mal.

Courbe montrant la fiabilité du respect des instructions d'un agent IA qui chute sur une longue session : l'instruction canari disparaît avant le début des hallucinations, laissant une fenêtre d'alerte précoce.

Le canari disparaît avant que les hallucinations ne commencent. Cet écart, c'est votre fenêtre pour réagir.

Mise en place en une ligne

Mettez l'instruction dans le fichier que votre agent charge à chaque tour :

Claude Code lit CLAUDE.md.
Codex, Antigravity CLI, Mistral Vibe et la plupart des autres CLI lisent AGENTS.md.

## Canari
Commence chaque réponse par le prénom "Félix".

Choisissez un prénom court et distinctif : votre chat, une couleur, n'importe quoi que vous remarquerez instantanément en début de réponse. Gardez ça d'une simplicité absolue. Une instruction complexe va à l'encontre du but, car vous voulez la chose la plus facile possible à laisser tomber pour le modèle. Si même ça saute, tout ce qui est plus nuancé dans votre contexte est déjà en danger.

Que faire quand le canari meurt

Le prénom n'a jamais été le sujet. C'est le timing qui compte. Quand le canari disparaît, ne forcez pas sur le fil en cours :

Cessez de faire confiance aux deux ou trois dernières réponses et relisez-les avec méfiance.
Lancez /clear ou démarrez une nouvelle session.
Réinjectez uniquement le contexte qui compte : le fichier en cours d'édition, l'objectif, et les décisions déjà prises.

Une fenêtre propre avec un brief serré vaut toujours mieux qu'une fenêtre saturée. Vous ne perdez pas votre progression, vous larguez le poids mort qui tirait le modèle vers le bas.

Boucle de décision : lire la réponse de l'agent, vérifier si elle commence par le prénom. Si oui, le canari est vivant, on continue. Si non, le canari est mort, on vide le contexte ou on démarre une nouvelle session et on réinjecte le contexte clé.

Toute l'habitude tient en une boucle : un coup d'œil au premier mot, on décide, on continue ou on réinitialise.

Ça marche sur tous les modèles, pas seulement Claude

Cette astuce est agnostique du fournisseur par conception. Claude, Codex, Antigravity CLI, Mistral Vibe, Grok et Aider partagent tous les mêmes limites de contexte, lisent tous un fichier de contexte, et peuvent tous porter un canari. On se concentre d'abord sur Claude parce que c'est l'agent de code le plus utilisé aujourd'hui, mais rien ici n'est spécifique à Claude. Tout LLM qui remplit son contexte commencera par laisser tomber votre plus petite instruction : le même canari protège chacun d'eux. Si vous tenez un fichier de contexte AGENTS.md, le canari n'est qu'une ligne de plus dedans.

Surveiller le canari sur toute une flotte

Lire chaque réponse pour y traquer un prénom manquant, c'est facile avec un seul agent. Ça ne passe plus à l'échelle quand vous en faites tourner plusieurs en même temps, ce qui est précisément là que se joue l'essentiel du travail sérieux aujourd'hui.

C'est cette partie qu'AgentsRoom rend simple. C'est un cockpit multi-agents : chaque agent a un rôle, un point de statut en direct et sa propre couleur, et vous supervisez toute la flotte depuis une seule fenêtre. Posez le canari une fois dans votre CLAUDE.md ou AGENTS.md partagé, et chaque agent en hérite. Quand un agent commence à oublier le prénom, vous le repérez d'un coup d'œil et vous réinitialisez ce seul fil plutôt que tout le projet. L'isolation optionnelle par worktree git empêche les agents parallèles de se marcher dessus pendant que vous le faites.

AgentsRoom intègre carrément cette astuce, donc vous n'avez même pas à surveiller les réponses vous-même. Chaque agent qu'il lance écrit déjà un statut une ligne à la fin de chaque tour, et AgentsRoom s'en sert comme canary : quand un agent arrête de le mettre à jour deux tours d'affilée, un avertissement apparaît au-dessus du terminal de cet agent, avec un bouton pour relancer sur un contexte propre et un rappel pour compacter. Vous obtenez l'alerte précoce automatiquement, sur chaque agent, sur toute la flotte. Découvrez comment ça marche sur la page détection de dérive de contexte.

Sept fournisseurs, un seul cockpit, et un canari qui veille sur chacun d'eux. Téléchargez AgentsRoom, consultez la matrice de compatibilité des fournisseurs pour voir ce que chaque agent supporte, et lisez-en plus sur le support multi-fournisseur et la façon dont le changement en cours de conversation préserve votre contexte.

Continuer la lecture

Télécharger AgentsRoom

Lancez vos agents IA (Claude, Codex, Antigravity CLI, OpenCode, Aider, Grok Build, Mistral Vibe, Kimi Code) sur tous vos projets, depuis une seule fenêtre.

GratuitTélécharger AgentsRoom

App companion : suivez vos agents en déplacement

Utilisez Claude, Codex, Antigravity CLI ou un autre fournisseur IA.

Installer l'extension

Chrome Web Store

Remontez bugs et demandes directement dans votre backlog public.