Циклы ИИ-агентов: как самокорректирующийся агент доводит код до конца

Цикл ИИ-агента превращает «спросил и поправил» в самокорректирующийся процесс: агент пишет план, реализует его, сверяет свою работу с планом и крутит цикл, пока не закончит. Как цикл работает в Claude Code, Codex, Gemini CLI, Cursor и в Ralph loop.

21 июня 2026 г.

То, как большинство до сих пор пользуется ИИ-агентом для кода, похоже на пинг-понг. Ты пишешь запрос, он отвечает, ты замечаешь, что не так, и пишешь снова. Это ты движок исправлений, и ты сидишь внутри цикла на каждом шаге.

Цикл переворачивает это. Ты описываешь, чего хочешь, агент берётся за дело, сам пишет себе чек-лист, сам находит свои слабые места и повторяет, пока результат не начнёт держаться. Ты перестаёшь быть тем, кто ловит ошибки. Агент ловит свои сам.

Этот сдвиг не хайп. Люди, которые сделали эти инструменты, на нём держатся. Boris Cherny и Cat Wu, создатели Claude Code, говорят о написании кода в agent loops. Geoffrey Huntley, давший имя «Ralph loop», по ночам гоняет агентов в обычном цикле while. У паттерна теперь есть имя, и его стоит понять до того, как копировать три промпта из Instagram.

От пинг-понга промптов к циклу

Один промпт: это разовый выстрел. Ты спросил, получил ответ, сделка закрыта. Чтобы что-то улучшить, ты должен заметить разрыв и спросить заново. Масштабируй это до настоящей фичи, и ты вручную делаешь десятки микроправок.

Цикл ИИ-агента закрывает этот разрыв внутри самого агента. Ты задаёшь цель, агент планирует, действует, смотрит на результат, исправляет, снова и снова, пока цель не достигнута. Ты не исчез, ты вычитываешь в конце. Но ты больше не узкое место на каждой итерации.

Сравнение бок о бок: слева пинг-понг промптов, где ты пишешь запрос, агент отвечает, ты исправляешь и повторяешь вручную, так что ты узкое место на каждом шаге. Справа цикл, где ты задаёшь цель один раз, а агент сам планирует, строит и вычитывает себя, самокорректируясь до готовности, поэтому ты вмешиваешься только в конце.

Пинг-понг промптов держит в цикле тебя на каждом шаге. Настоящий цикл держит в нём агента.

Что такое цикл ИИ-агента на самом деле

Любой агентный цикл крутится по одним и тем же четырём тактам: планировать, действовать, наблюдать, исправлять. Агент решает, какой шаг следующий, делает его (пишет код, запускает команду, читает файл), смотрит, что вышло, и подстраивается. Claude пишет код, запускает тесты, видит провал, чинит, прогоняет тесты снова. Эта обратная связь и есть весь фокус. Именно она делает цикл самокорректирующимся, а не просто повторяющимся.

Самая сильная версия цикла раскладывает эти такты на три роли: одна планирует, одна строит, одна вычитывает. Держать их раздельно: вот что мешает агенту проверять собственную домашку тем же вздохом, которым он её писал.

Цикл из трёх команд, который можно скопировать уже сегодня

Вот сборка, которая ходит по рукам прямо сейчас, пересобранная в три slash-команды Claude Code. Вставляешь каждую один раз, агент создаёт команду, потом ты запускаешь их по порядку.

Планировщик, /spec:

Расспрашивай меня по одному вопросу за раз, пока полностью не поймёшь, чего я хочу.
Затем запиши точный план в specs/project.md: цель, точные требования,
краевые случаи и что входит в объём работ, а что нет.
Держи его коротким и чётким, не роман.

Строитель, /build:

Прочитай specs/project.md и построй ровно то, что там описано, ничего сверх.
Когда закончишь, перечисли каждое требование из плана и отметь,
какие из них ты покрыл.

Рецензент, /review:

Сравни то, что построено, с specs/project.md, требование за требованием.
По каждому скажи, покрыто оно или нет. Запиши нужные исправления
и верни их в /build. Подписывай только тогда, когда покрыт весь план.

Три команды, один цикл: spec пишет план, build его реализует, review сверяет результат с планом и отправляет исправления обратно в build. Так и крутится, пока не закрыто каждое требование.

Самокорректирующийся цикл агента: команда spec пишет план, команда build его реализует, команда review сверяет результат с планом пункт за пунктом, отправляет исправления обратно в build и выпускает только тогда, когда покрыт весь план.

План: это источник истины. Review измеряет сборку относительно него, а не относительно ощущения.

Под капотом это spec-driven coding: судит агента написанный спек, а не история чата. Открытый Spec Kit от GitHub формализует ту же идею через /specify, /plan, /tasks и /implement, и он одинаково работает на Claude Code, Copilot, Cursor, Codex CLI и Gemini CLI.

Почему свежий контекст заставляет цикл работать: Ralph loop

Geoffrey Huntley дал имя самой грубой версии всего этого в середине 2025 года: Ralph loop. Идея в том, что обычный shell-цикл скармливает агенту один и тот же промпт против написанного спека, даёт ему выбрать одну задачу и выпустить её, потом запускает совершенно нового агента с чистым контекстом и скармливает идентичный промпт снова.

while has_more_todos; do
  agent --prompt "Возьми следующую задачу из todo.md" --non-interactive
done

Неочевидная часть: это сброс контекста. Долгая сессия гниёт: окно забивается старыми рассуждениями, тупиками и устаревшим содержимым файлов, и модель тихонько начинает ронять инструкции. Каждая итерация Ralph: это новый агент, который читает текущий репозиторий и список задач с диска, делает одну единицу работы, коммитит и выходит чистым. Huntley намеренно назвал его в честь персонажа Simpsons: выглядит слишком тупо, чтобы работать, и работает. Если ты уже видел, как долгая сессия начинает галлюцинировать, ты и так знаешь, почему свежее окно бьёт раздутое.

Команды /loop и /goal в Claude Code

Claude Code сразу несёт в себе примитивы цикла. /goal задаёт постоянное конечное состояние, как выглядит «готово», и Claude оценивает прогресс относительно него после каждого прохода, вместо того чтобы просто запускать следующий шаг. /loop повторяет задачу по расписанию или пока держится условие, в формах вроде /loop every 10m или /loop until:. Вместе они создают самонаправляющийся и самозавершающийся цикл: Claude работает с разницей между текущим состоянием и целью и останавливается, когда цель достигнута или ты жмёшь Ctrl+C.

Деталь, которая важна: цикл сохраняет непрерывность. Он помнит, что пробовал и почему это провалилось, поэтому каждый проход опирается на предыдущий, а не повторяет один и тот же тупик. Это обратный размен по сравнению со сбросом чистого контекста у Ralph, и оба варианта рабочие. Непрерывность для плотной самокоррекции, свежий контекст когда окно гниёт. Знать, что выхватить в каждом случае: вот это и есть настоящий навык.

Тот же цикл, у каждого провайдера

Циклы не фича Claude, это направление, в которое движется вся отрасль. Имена разные, форма одна.

Инструмент	Механизм цикла	Как он самокорректируется
Claude Code	`/goal` + `/loop`	Постоянная цель, оценивает разницу на каждом проходе, останавливается при достижении
Codex CLI	`/goal`	«Версия Ralph loop» от OpenAI: держит цель живой между ходами, пока не достигнет
Gemini CLI	агентное plan-act-observe	Планирует, правит, прогоняет проверки, самокорректируется без подтверждения на каждом шаге
Cursor	режим агента	Планирует шаги, правит файлы, запускает компилятор, чинит то, что сломал
Spec Kit (любой агент)	`/specify` `/plan` `/tasks` `/implement`	Спек: источник истины на всём цикле
Ralph / autoloop	shell-цикл `while`	Свежий агент на каждую итерацию против написанного спека

Codex CLI публично продвинул цикл дальше всех. Команда OpenAI представила свой /goal как свою версию Ralph loop, а Andrew Chen из a16z оставил его работать всю ночь над драйвером устройства, 14 часов подряд без вмешательства. Он же отметил, что это «увеличит расход токенов в 10 000 раз», и это честная цена того, чтобы дать агенту молотить полдня.

Подвох: цикл усиливает всё

Цикл усиливает не только хороший результат, он усиливает и плохой план. Наведи самокорректирующегося агента на расплывчатый спек, и он уверенно построит не то, сверит это с тем же расплывчатым спеком и подпишет. План: вот рычаг. Чёткий спек экономит десять промптов, мутный тратит сотню.

Два режима отказа, за которыми надо следить. Стоимость идёт вразнос: каждая итерация жжёт токены, а цикл без границ на неясной цели может сжечь очень много. И цикл может крутиться вечно, объявляя победу или гоняясь за целью, которую никогда не сможет удовлетворить. Огранич его: чёткое условие until, потолок по токенам или человеческая контрольная точка перед мержем. Цикл без остановки: это не автономия, это разгон вразнос.

Цикл на целом флоте агентов

За одним самокорректирующимся агентом легко присматривать. Рычаг появляется, когда ты гоняешь несколько сразу, каждый крутит цикл на своей задаче, и вот именно тут слежка за одним терминалом перестаёт масштабироваться.

Ровно для этого и сделан AgentsRoom. Это многоагентная кабина: у каждого агента есть роль, живая точка статуса и свой цвет, и ты управляешь всем флотом из одного окна. Кинь тикет в бэклог, и агент его подхватит, прокрутит свой цикл plan-build-review и вернёт тебе чистый диф. Это spec-driven AI coding на практике: тикет это спек, агент крутит цикл, ты вычитываешь результат.

Поскольку долгие циклы гноят контекст, AgentsRoom за этим следит. Каждый агент пишет однострочный статус в конце каждого хода, и когда агент перестаёт обновлять его два хода подряд, появляется предупреждение с перезапуском в один клик на чистом контексте: тот же сброс окна, на который опирается Ralph loop. Прочитай, как это работает, на странице детекция дрейфа контекста.

И поскольку цикл не зависит от провайдера, ты не заперт ни у кого. Запусти один тикет на Claude Code, следующий на Codex, ещё один на Gemini CLI, всё в одной панели, каждый крутится в своём git worktree, чтобы параллельные агенты никогда не столкнулись. Запусти их перед тем как уйти, а дифы вычитай утром: в этом весь смысл фоновых агентов для кода и ночной смены.

Задай цель один раз, дай циклу её закрыть, вычитай в конце. Скачай AgentsRoom, загляни в матрицу совместимости провайдеров и узнай больше про ревью по агентам и поддержку нескольких провайдеров.