Хватит читать терминал.
Поговорите с вашим агентом.
Voice Mode это двусторонний голосовой разговор с работающим ИИ-агентом разработки. Одно касание, вы говорите свой ход, и агент отвечает вслух естественным голосом. Не нужно печатать промпт и прокручивать стену терминального вывода, чтобы понять, что произошло.
Включите режим без рук, и он продолжает слушать между ответами: можно расхаживать по комнате, смотреть на сборку или пить кофе, проговаривая план. Спросите, где сейчас рефакторинг, он скажет. Скажите запусти тесты и доложи, он запускает, а потом озвучивает результат.

Voice Mode в действии: агент слушает, режим без рук включён, голос ответа выбран, и агент отвечает вслух между вашими ходами.
Вот тот сдвиг, на который отвечает Voice Mode. Ваш агент работает дольше и делает больше сам: правит файлы, запускает команды, пишет тесты, чинит то, что сломал. Узкое место теперь не в написании кода, а в том, чтобы оставаться в курсе, пока агент работает. Читать строку за строкой терминального вывода или печатать очередной промпт, чтобы узнать, что происходит, возвращает вас к клавиатуре на каждом ходу.
Voice Mode превращает этот цикл в разговор. Вы говорите свой ход вслух, агент отвечает вслух. Вы задаёте вопрос, вносите поправку, утверждаете план, всё голосом, и вы слышите ответ, произнесённый естественным голосом, а не разбираете его на экране. Это разница между присмотром за процессом и разговором с напарником.
Это не то же самое, что голосовой ввод. Диктовка односторонняя: вы говорите, она расшифровывает ваши слова в композер, и ответ агента вы всё равно читаете. Voice Mode двусторонний: речь на входе, речь на выходе, живой обмен туда-сюда. Диктовка помогает быстрее написать промпт. Voice Mode позволяет вовсе обойтись без клавиатуры и экрана, пока вы держите агента в движении.
Зачем говорить с агентом вместо того, чтобы печатать и читать
Оставайтесь в курсе, без рук. Способный агент может работать несколько минут по одной инструкции. С Voice Mode в режиме без рук вы остаётесь на связи всё это время, не сидя на клавиатуре. Спросите статус, направьте следующий шаг, подтвердите решение, всё это стоя у доски или глядя, как перезагружается приложение.
Естественный обмен туда-сюда. Напечатать промпт, подождать, прочитать вывод, напечатать снова это рваный цикл. Сказать свой ход и услышать ответ это разговор. Это быстрее для коротких ходов (быстрое да, мелкая поправка, ещё один вопрос) и гораздо менее утомительно, чем читать стены терминального текста при каждом обновлении.
Руки свободны, экран свободен. Услышать ответ агента значит, что не нужно смотреть в терминал, чтобы узнать, что он сделал. Взгляните на сборку, на ваши тесты, на ваш дизайн или вообще никуда, и пусть произнесённое обновление скажет, как обстоят дела. Агент комментирует, а вы держите взгляд там, где настоящая работа.
На тех же голосовых кредитах. Voice Mode использует голосовой бэкенд AgentsRoom, распознавание речи на входе и синтез речи на выходе, черпая из того же баланса голосовых кредитов, что и диктовка. Один баланс питает и диктовку промптов, и полные голосовые разговоры, так что подключать ничего дополнительно не нужно.
Как работает Voice Mode
Откройте его на работающем агенте, говорите, слушайте, повторяйте. Голосовой цикл вместо печатать-и-читать.
Откройте Voice Mode на работающем агенте
Voice Mode запускается для агента, который уже работает в своём терминале, из композера этого агента. Ему нужна живая сессия, потому что разговор идёт именно с этим агентом, в его текущем контексте, а не в новом чате.
Коснитесь, чтобы говорить
Коснитесь один раз и скажите свой ход: вопрос, инструкцию, поправку. Состояние переключается на прослушивание с живым индикатором, так что видно, что микрофон захватывает звук. Выберите без рук, чтобы он продолжал слушать между ходами, или нажми-и-говори, чтобы делать по одному ходу за раз.
Он расшифровывает и отправляет агенту
Когда вы заканчиваете, ваша речь расшифровывается и отправляется работающему агенту как ваше сообщение, ровно так, как если бы вы его напечатали. Состояние проходит через расшифровку и отправку, так что вы всегда знаете, где ваш ход в этой цепочке.
Агент работает
Агент обрабатывает ваш ход в своей собственной сессии: он может читать файлы, запускать команды, править код, гонять тесты, всё, о чём просило ваше сообщение. Voice Mode показывает рабочее состояние с именем агента, пока он делает дело, как обычный ход в терминале.
Услышьте ответ, произнесённый вслух
Когда агент отвечает, его ответ зачитывается вслух выбранным вами голосом. Вы слышите статус, результат, следующий вопрос, не читая терминал. Необязательный звуковой сигнал отмечает границу между ходами, чтобы вы знали, когда снова ваша очередь.
Сделайте свой следующий ход
В режиме без рук он уже снова слушает, так что просто продолжайте говорить. В режиме нажми-и-говори вы касаетесь, чтобы начать следующий ход. Разговор длится столько, сколько хотите, потом вы закрываете Voice Mode, и агент остаётся ровно там, где вы его оставили в его терминале.
Без рук, чтобы оставаться в курсе без клавиатуры
Смысл Voice Mode не в новизне. Он в том, чтобы поспевать за быстрым агентом, не будучи прикованным к столу.
Современный агент разработки делает много за один ход, и именно в промежутках между вашими ходами вы обычно теряете контекст: вы отходите, агент заканчивает, и вы возвращаетесь к экрану, полному вывода, который теперь надо читать. Voice Mode без рук закрывает этот разрыв. Агент говорит вам, что сделал, когда закончил, вслух, и вы отвечаете, не садясь обратно.
Режим без рук держит микрофон открытым между ходами, так что разговор течёт как телефонный звонок: вы говорите, он работает, он говорит, вы говорите снова. Хотите контролировать каждый ход? Нажми-и-говори делает по одному ходу за раз, что удобно в шумной комнате или когда вы хотите вмешиваться лишь время от времени.
Звуковой сигнал мелочь, которая на практике важна. Когда вы не смотрите на экран, короткий сигнал говорит, что агент договорил и теперь ваша очередь, чтобы вы не перебивали его и не ждали в тишине, гадая, закончил ли он.
Именно это делает Voice Mode полезным для настоящей работы, а не просто демонстрацией. Он создан для моментов, когда агент тянет основную тяжесть, а вы хотите направлять, сверяться и утверждать, пока ваши руки и глаза свободны для всего остального.
Выберите голос, следите за разговором
Voice Mode даёт вам элементы управления, которые делают голосовой разговор удобным, и точно показывает, где находится каждый ход.
Голоса и сигналы
- Голос ответа: alloy и другие естественные голоса
- Без рук: продолжает слушать между ходами
- Нажми-и-говори: по одному ходу за раз
- Звуковой сигнал: короткий тон отмечает границу каждого хода
- Авто-язык: говорите своими словами, он определяет язык
Состояния разговора
- Прослушивание: микрофон захватывает ваш ход
- Расшифровка: ваша речь превращается в текст
- Отправка: ваше сообщение уходит агенту
- Работа: агент делает дело
- Речь: ответ агента зачитывается вслух
Автоопределение языка означает, что не нужно выбирать язык, чтобы начать говорить, а видимые состояния означают, что вы никогда не гадаете, услышал ли вас агент, работает ли он или вот-вот ответит.
Что Voice Mode на самом деле делает под капотом
Voice Mode это полнодуплексный слой поверх обычной сессии агента. На вашем ходу он записывает ваш голос и отправляет звук на бэкенд AgentsRoom, который выполняет распознавание речи и возвращает расшифровку. Эта расшифровка вставляется в работающего агента как ваше сообщение, так что с точки зрения агента это просто очередной ход в разговоре, который он уже ведёт с вами.
На ходу агента его текстовый ответ отправляется обратно на бэкенд AgentsRoom для синтеза речи выбранным вами голосом, и полученный звук проигрывается вам. Распознавание речи на входе, синтез речи на выходе, а настоящая работа агента происходит между ними. Вот почему Voice Mode нужны аккаунт и работающий агент: голосовой бэкенд проксирует речевые модели, а разговор привязан к живой сессии.
Поскольку агент видит только текст, Voice Mode нейтрален к провайдеру по своей конструкции. Будь агент Claude Code, Codex, Gemini CLI, OpenCode или Aider, ваш расшифрованный ход приходит как сообщение, а его ответ озвучивается тем же способом. Ничто в голосовом слое не зависит от того, какой CLI работает под ним.
Voice Mode и голосовой ввод используют один и тот же баланс голосовых кредитов, поскольку оба опираются на один речевой бэкенд. Диктовка тратит кредиты на одностороннюю расшифровку; Voice Mode тратит их на полный круг расшифровки плюс произнесённые ответы, и это открыто по своей природе, ведь разговор может длиться столько, сколько вы говорите.
Где работает Voice Mode
Двусторонний голосовой разговор с работающим десктопным агентом, речь на входе и речь на выходе.
Десктоп, на живом агенте
Voice Mode работает на macOS, запускается из композера уже работающего агента. Он говорит именно с этим агентом в его текущей сессии, так что разговор имеет весь контекст, что агент накопил, а не чистый лист.
Речь на входе
Ваш ход захватывается микрофоном и расшифровывается голосовым бэкендом AgentsRoom, затем отправляется агенту как ваше сообщение. Без рук держит микрофон открытым между ходами; нажми-и-говори делает по одному ходу за раз. Язык определяется автоматически.
Речь на выходе
Ответ агента зачитывается вслух синтезом речи выбранным вами голосом (alloy и другие). Необязательный сигнал отмечает конец каждого произнесённого ответа, чтобы вы знали, что ваша очередь, даже не глядя на экран.
Голосовой ввод против Voice Mode
Оба используют ваш голос. Один пишет за вас промпт, другой ведёт разговор.
Голосовой ввод (односторонний)
- : Вы говорите, он расшифровывает ваши слова в композер.
- : Ответ агента на экране вы всё равно читаете сами.
- : Отлично подходит, чтобы быстро написать длинный точный промпт.
- : Вы остаётесь у клавиатуры, чтобы отправить и прочитать результат.
- : Одно направление: голос на входе, текст в черновике, дальше дело за вами.
Voice Mode (двусторонний)
- : Вы говорите свой ход, агент отвечает вслух.
- : Вы слышите ответ, читать терминал не нужно.
- : Отлично подходит, чтобы направлять и сверяться, пока агент работает.
- : Без рук поддерживает разговор без клавиатуры.
- : Оба направления: голос на входе, агент работает, голос на выходе.
Используйте диктовку, чтобы написать отличный промпт за секунды, и Voice Mode, чтобы говорить с агентом, пока он его выполняет.
Как звучит произнесённый ход
Вы ничего из этого не печатаете. Вы говорите свой ход вслух, агент делает работу и проговаривает ответ обратно. Вот один круг разговора в Voice Mode.
Круг разговора
Вы: На чём мы по рефакторингу логина?
Агент: Ограничитель частоты на месте, успешный путь не тронут. Два теста ещё красные.
Вы: Почини два падающих теста, потом прогони весь набор и скажи мне число.
Агент: Готово. Оба теперь проходят. Полный набор: 142 пройдено, 0 упало.
Вы: Хорошо. Закоммить с коротким сообщением и остановись на этом.FAQ
Что такое Voice Mode в AgentsRoom?
Voice Mode это двусторонний голосовой разговор с работающим ИИ-агентом разработки. Вы касаетесь и говорите свой ход, ваша речь расшифровывается и отправляется агенту, агент делает работу, и его ответ зачитывается вам вслух естественным голосом. Это позволяет говорить с агентом и слышать его ответы вместо того, чтобы печатать промпты и читать терминальный вывод.
Чем Voice Mode отличается от голосового ввода?
Голосовой ввод односторонний: вы говорите, и ваши слова расшифровываются в композер как промпт, потом вы читаете ответ агента на экране. Voice Mode двусторонний: вы говорите свой ход, и агент отвечает вслух, живой произнесённый обмен туда-сюда. Диктовка помогает быстрее написать промпт; Voice Mode позволяет вести разговор без рук, пока агент работает.
Агент правда отвечает голосом?
Да. Ответ агента превращается в речь синтезом речи и проигрывается вслух выбранным вами голосом. Вы слышите статус, результат и следующий вопрос, так что вам не нужно читать терминал, чтобы узнать, что сделал агент.
Что такое режим без рук?
Без рук держит микрофон открытым между ходами, так что разговор течёт как телефонный звонок: вы говорите, агент работает, он говорит и уже слушает ваш следующий ход. Если вы предпочитаете контролировать каждый ход, нажми-и-говори делает по одному ходу за раз, что удобно в шумной комнате.
Могу ли я выбрать голос?
Да. Вы выбираете голос ответа (alloy и другие голоса), которым звучат произнесённые ответы агента. Можно также включить необязательный звуковой сигнал, который проигрывает короткий тон на границе между ходами, чтобы вы знали, когда агент договорил и наступила ваша очередь.
Какие языки поддерживает Voice Mode?
Voice Mode автоматически определяет язык, на котором вы говорите, так что можно говорить своими словами, не выбирая язык заранее. Расшифровку выполняет голосовой бэкенд AgentsRoom, тот же речевой стек, что используется для диктовки.
Нужны ли мне аккаунт и работающий агент?
Да, и то и другое. Voice Mode нужен вошедший в систему аккаунт, потому что голосовой бэкенд проксирует речевые модели и черпает из ваших голосовых кредитов, и ему нужен уже работающий агент, потому что разговор привязан к этой живой сессии и использует её текущий контекст.
Тратит ли Voice Mode кредиты?
Да. Voice Mode работает на том же балансе голосовых кредитов, что и диктовка. Диктовка тратит кредиты на одностороннюю расшифровку вашей речи; Voice Mode тратит их на полный круг расшифровки плюс произнесённые ответы, что открыто, ведь разговор может длиться столько, сколько вы говорите.
Доступен ли он в живом веб-демо?
Нет. Публичное веб-демо имитирует бэкенд, поэтому голосовой разговор в реальном времени там работать не может. Нажатие на Voice Mode в демо показывает уведомление с приглашением скачать AgentsRoom, где Voice Mode говорит с вашими настоящими агентами.
Работает ли Voice Mode с Claude Code, Codex и Gemini?
Да, со всеми, а также с OpenCode и Aider. Агент видит только текст, так что ваш произнесённый ход приходит как сообщение, а его ответ озвучивается тем же способом, независимо от того, какой агентский CLI работает под ним.
Хорошо сочетается с
Голосовой ввод
Односторонний собрат Voice Mode. Продиктуйте длинный точный промпт в композер голосом, а затем говорите с агентом, пока он его выполняет.
Удалённое управление агентом
Управляйте десктопными агентами с телефона. Голос самый естественный способ поспевать за агентом, когда вы вдали от клавиатуры.
Синхронизация мобильного и десктопа
Сквозное шифрованное соединение между телефоном и десктопными агентами, чтобы вы оставались на связи с тем, что работает на вашем Mac.
Статус агента
Видеть, кто работает, кто закончил, кто застрял, одним взглядом. Voice Mode позволяет спросить работающего агента этот статус вслух.
Мульти-провайдер
Запускайте Claude, Codex, Gemini, OpenCode и Aider бок о бок. Voice Mode говорит с любым из них одинаково.
Scratchpad
Редактор побольше в подвале для заметок и более длинных брифов. Сочетайте его с голосом, когда ход слишком длинный или слишком точный, чтобы его произносить.
Говорите с агентами, слушайте, как они отвечают
Скачайте AgentsRoom и откройте Voice Mode на работающем агенте. Скажите свой ход, услышьте ответ и оставайтесь в курсе без рук, пока агент делает работу. Двусторонний голосовой разговор, встроенный в ваш ИИ-IDE для разработки.
Приложение-компаньон: следите за агентами на ходу
Используйте Claude, Codex, Gemini CLI или другого поставщика AI.
Отправляйте баги и запросы прямо в ваш публичный бэклог.
Взгляд на AgentsRoom в действии.