Kanarya hilesi: Claude'u (ya da herhangi bir yapay zeka ajanını) halüsinasyona başlamadan yakalayın

Yapay zeka kodlama ajanınızın ne zaman bozulmaya başladığını anlamanın tek satırlık hilesi: her yanıta bir isimle başlatın. İsim kaybolduğunda kanarya ölmüştür ve yeni bir oturum zamanı gelmiştir. Claude, Codex, Gemini CLI, Mistral Vibe ve her LLM ile çalışır.

Bir yapay zeka kodlama ajanıyla uzun bir oturum nadiren tek seferde bozulur. Claude tek bir turda keskinlikten saçmalığa atlamaz. Önce küçük bir talimatı sessizce atlar. Bir iki tur sonra uydurmaya başlar: var olmayan bir dosya, hiç olmamış bir API, açıkça elediğiniz bir karar. Siz halüsinasyon bir yolu fark ettiğinizde, son birkaç yanıta olan güveninizi çoktan yitirmiş ve kodunuz yerine ajanı ayıklıyor olursunuz.

Erken uyarı almanın ücretsiz, neredeyse utandıracak kadar basit bir yolu var. Adı kanarya ve tek satırda kurulur.

Ajanlar neden raydan çıkar: bağlam çürümesi (context rot)

Her turda ajan, ilk mesajdan sonuncusuna kadar tüm konuşmayı yeniden okur ve anlayışını sıfırdan kurar. Bağlam penceresi doldukça ilk gevşeyen şey talimatlara uymaktır. Model hâlâ kendinden emin konuşur, ama yetişebilmek için en önemsiz kısıtlamaları bırakmaya başlamıştır. Araştırmacılar buna «context rot» diyor; ilişkili «lost in the middle» etkisiyle birlikte: bağlam uzadıkça, içine gömülü tek bir talimatı model o kadar güvenilmez biçimde uygular.

İşte kilit kavrayış bu. Bozulma halüsinasyonlarla başlamaz. Modelin küçük bir talimatı sessizce görmezden gelmesiyle başlar. Yani tek görevi kaybolduğunda fark edilmek olan minicik bir talimat ekerseniz, gerçek hasardan önce tetiklenen bir tuzak teli elde edersiniz.

Kanarya hilesi nedir

Eskiden madenciler ocağa bir kanaryayla inerdi. Kuş, zehirli gazlara insanlardan daha duyarlıydı: ötmeyi kestiğinde madenciler, kendileri herhangi bir şey hissetmeden çok önce çıkmaları gerektiğini anlardı.

Prompt kanaryası da aynı fikir. Ajanınızın her turda okuduğu dosyaya önemsiz bir talimat eklersiniz: her yanıta seçtiğiniz bir isimle başla. O isim sizin kanaryanızdır. Her yanıtın başında göründüğü sürece model hâlâ talimatlarınızı okuyup uyuyor demektir. İsmi unutan ilk yanıt, oturumun bozulduğunun işaretidir; genellikle gerçek halüsinasyonlar belirmeden bir iki tur öncedir. Bu teknik, ajansal kodlama topluluğunda OpenClaw'ın yaratıcısı Peter Steinberger gibi geliştiriciler tarafından yaygınlaştı; onlar bozulmaya başlayan bir oturumu erken yakalamak için küçük kanarya işaretlerine güveniyor.

Bir yapay zeka ajanının uzun bir oturum boyunca talimatlara uyma güvenilirliğinin nasıl düştüğünü gösteren eğri: kanarya talimatı, halüsinasyonlar başlamadan önce kaybolur ve bir erken uyarı penceresi bırakır.

Kanarya, halüsinasyonlar başlamadan önce kaybolur. O boşluk, tepki vermek için pencerenizdir.

Tek satırda kurulum

Talimatı, ajanınızın her turda yüklediği dosyaya koyun:

  • Claude Code CLAUDE.md okur.
  • Codex, Gemini CLI, Mistral Vibe ve diğer çoğu CLI AGENTS.md okur.
## Kanarya
Her yanıta "Felix" ismiyle başla.

Kısa ve ayırt edici bir isim seçin: kediniz, bir renk, yanıtın başında anında göze çarpacak herhangi bir şey. Olabildiğince basit tutun. Karmaşık bir talimat amacı baltalar, çünkü modelin en kolay bırakabileceği şeyi istiyorsunuz. Eğer bu bile düşerse, bağlamınızdaki daha incelikli her şey zaten tehlikededir.

Kanarya öldüğünde ne yapmalı

Mesele hiçbir zaman isim değildi. Mesele zamanlama. Kanarya kaybolduğunda mevcut akışı zorlamayın:

  1. Son iki üç yanıta güvenmeyi bırakın ve onları kuşkuyla yeniden okuyun.
  2. /clear çalıştırın ya da yeni bir oturum başlatın.
  3. Yalnızca önemli olan bağlamı yeniden enjekte edin: düzenlediğiniz dosya, hedef ve halihazırda verilmiş kararlar.

Sıkı bir özetle temiz bir pencere, şişmiş bir pencereyi her seferinde alt eder. İlerlemenizi kaybetmiyorsunuz; modeli aşağı çeken ölü ağırlığı atıyorsunuz.

Karar döngüsü: ajanın yanıtını oku, isimle başlayıp başlamadığını kontrol et. Evetse kanarya yaşıyordur, çalışmaya devam et. Hayırsa kanarya ölmüştür; bu yüzden bağlamı temizle ya da yeni bir oturum başlat ve anahtar bağlamı yeniden enjekte et.

Tüm alışkanlık tek bir döngüye sığar: ilk kelimeye bir bakış, karar, devam ya da sıfırlama.

Yalnızca Claude'da değil, her modelde çalışır

Bu hile, tasarımı gereği sağlayıcıdan bağımsızdır. Claude, Codex, Gemini CLI, Mistral Vibe, Grok ve Aider aynı bağlam sınırlarını paylaşır, hepsi bir bağlam dosyası okur ve hepsi bir kanarya taşıyabilir. Önce Claude'a odaklanıyoruz çünkü bugün en çok kullanılan kodlama ajanı o, ama buradaki hiçbir şey Claude'a özgü değil. Bağlamını dolduran herhangi bir LLM, işe en küçük talimatınızı bırakarak başlar; dolayısıyla aynı kanarya hepsini korur. Bir AGENTS.md bağlam dosyası tutuyorsanız, kanarya onun içindeki yalnızca bir satır daha.

Tüm bir filoda kanaryayı izlemek

Eksik bir isim için her yanıtı okumak tek bir ajanla kolaydır. Aynı anda birkaç tane çalıştırdığınızda ölçeklenmez; oysa ciddi işin çoğu bugün tam da orada dönüyor.

İşte AgentsRoom'un kolaylaştırdığı kısım bu. Çok ajanlı bir kokpit: her ajanın bir rolü, canlı bir durum noktası ve kendi rengi var ve tüm filoyu tek bir pencereden gözetiyorsunuz. Kanaryayı paylaşılan CLAUDE.md ya da AGENTS.md dosyanıza bir kez koyun, her ajan onu devralsın. Bir ajan ismi düşürmeye başladığında bunu bir bakışta yakalar ve tüm proje yerine yalnızca o akışı sıfırlarsınız. İsteğe bağlı git worktree yalıtımı, siz bunu yaparken paralel ajanların birbirine girmesini önler.

Yedi sağlayıcı, tek bir kokpit ve her birini gözeten bir kanarya. AgentsRoom'u indirin, her ajanın neyi desteklediğini görmek için sağlayıcı uyumluluk matrisine bakın ve çoklu sağlayıcı desteği hakkında, konuşma ortasında geçiş yapmanın bağlamınızı nasıl bozulmadan koruduğunu daha fazla okuyun.

AgentsRoom'u Indirin

Claude ajanlarinizi tum projelerinizde tek bir pencereden calistirin.

ÜcretsizAgentsRoom'u Indir

Yardımcı uygulama: hareket halindeyken ajanlarinizi izleyin

Claude, Codex, Gemini CLI veya başka bir AI sağlayıcı kullan.

Uzantıyı yükleyin
Chrome Web Store

Hataları ve istekleri doğrudan genel backlogunuza gönderin.

AgentsRoom'a kısa bir bakış.

Çoklu proje
Çoklu sağlayıcı
Çoklu ajan
Canlı durum
Diff ve commit
Mobil uygulama
Canlı önizleme
Ajan ekipleri
Tarayıcı otomasyonu
Backlog odaklı dev
Prompt kütüphanesi
Beceri kütüphanesi
Tüm özellikleri gör