Голосовой ввод: диктуйте промпты, агент пишет код

Хватит печатать промпты.
Диктуйте их.

Голосовой ввод живёт прямо в композере агента. Нажмите микрофон, продиктуйте промпт, и распознанный текст ложится в черновик на позицию курсора. Речь в текст для ваших агентов разработки, без отдельного приложения для диктовки и без копипаста между окнами.

Напечатать длинный и точный промпт занимает минуты. Продиктовать тот же промпт занимает секунды. Больше контекста агенту, меньше уточняющих переписок, меньше потраченных впустую токенов. Ценность сместилась с кода на промпт, и голосовой ввод это самый быстрый способ написать хороший.

Скачать AgentsRoom Посмотреть, как работает голосовой ввод

Голосовой ввод в деле: нажмите микрофон, продиктуйте промпт, следите за живой звуковой волной, и распознанная речь в виде текста попадает в композер, готовая к правке и отправке.

Вот сдвиг, на который отвечает голосовой ввод. Самое сложное в работе с ИИ-агентом разработки больше не написание кода, это делает агент. Самое сложное это написать промпт: описать что вы хотите, ограничения, граничные случаи, файл который нужно тронуть, поведение которого нужно избежать. Точный промпт это разница между попаданием с первого раза и десятью утомительными переписками. А точный промпт это длинный промпт, и поэтому его медленно печатать.

Голосовой ввод убирает налог на печать. Вы нажимаете кнопку микрофона в композере, проговариваете всё что напечатали бы, часто больше чем взялись бы печатать, и распознанная речь в виде текста появляется в черновике. Вы говорите со скоростью 150 слов в минуту, вы не печатаете со скоростью 150 слов в минуту. Диктовка просто быстрее, а более быстрый канал означает что вы даёте агенту больше контекста на каждую задачу.

Это не прикрученная сбоку надстройка. Микрофон это часть композера AgentsRoom, рядом с библиотекой промптов и инструментами для скетчей. Текст вставляется на позицию курсора, так что вы можете смешивать печать и диктовку в одном черновике. Ничего не отправляется автоматически: текст ложится в черновик, вы его читаете, исправляете единственное слово которое модель не расслышала, и жмёте Enter когда готовы. Голосовой ввод здесь это помощник в письме, а не автопилот.

Голосовой ввод в композере AgentsRoom: кнопка микрофона записывает голос пользователя, и распознанная речь в виде текста вставляется в черновик промпта агента, с живым визуализатором звуковой волны

Кнопка микрофона находится в панели инструментов композера. Во время записи живая звуковая волна показывает уровень входного сигнала, затем распознанный промпт появляется в черновике.

Зачем диктовать промпты вместо того чтобы их печатать

Скорость. Вы говорите в несколько раз быстрее чем печатаете, и не теряете мысль в поисках нужных клавиш. Промпт из двух абзацев, который печатался бы три минуты, это тридцать секунд голосового ввода. За целый день диктовки промптов своим агентам это время складывается в реальные часы.

Точность. Поскольку диктовка почти ничего не стоит, вы говорите больше. Вы описываете граничный случай который пропустили бы, файл который не назвали бы, поведение которого хотите избежать. Более богатый промпт это более точный промпт, а более точный промпт это именно то, что заставляет ИИ-агента разработки выполнить задачу с первой попытки.

Экономия токенов. Каждая уточняющая переписка с агентом стоит токенов: агент спрашивает, вы отвечаете, он перечитывает контекст. Точный продиктованный промпт с самого начала схлопывает эти переписки. Меньше туда-сюда означает меньше токенов на тот же результат, что напрямую экономит вам счёт за ИИ-разработку.

Свободные руки и мобильность. На десктопе вы держите руки свободными пока агент работает, и диктуете следующий промпт вслух. На телефоне голосовой ввод это самый быстрый способ накормить агента без борьбы с мобильной клавиатурой. Проговорите идею, и она ложится в вашего агента на Mac.

Как работает голосовой ввод

Нажмите микрофон, продиктуйте, проверьте, отправьте. Четыре шага, без отдельного приложения, без копипаста.

Нажмите микрофон в композере

Поставьте курсор в композер агента и нажмите кнопку микрофона в панели инструментов. В первый раз macOS запросит разрешение на микрофон, AgentsRoom направляет этот запрос системе, так что вы выдаёте его один раз.

Продиктуйте промпт

Кнопка переключается в режим записи: пульсирующее состояние с живой звуковой волной, которая показывает уровень входного сигнала в реальном времени, так что вы знаете что микрофон действительно ловит звук. Скажите всё что ваш агент должен знать, на своём языке.

Остановите, и идёт распознавание

Нажмите снова чтобы остановить. Аудио отправляется на выбранную вами модель распознавания (GPT-4o Transcribe по умолчанию, GPT-4o mini Transcribe или OpenAI Whisper). Кнопка показывает состояние распознавания, пока речь превращается в текст.

Текст ложится на позицию курсора

Распознанный текст вставляется в черновик на позицию курсора, с разделяющим пробелом при необходимости. Позиция курсора восстанавливается, так что вы можете продолжать печатать или продиктовать ещё кусок. Печать и диктовка свободно смешиваются в одном промпте.

Проверьте и отредактируйте

Ничего ещё не отправлено. Промпт лежит в черновике. Прочитайте его, исправьте редкое слово которое модель не расслышала, добавьте строку с клавиатуры, переставьте предложение. Вы сохраняете полный контроль над тем, что ваш агент действительно получит.

Отправьте когда готовы

Нажмите Enter чтобы отправить промпт агенту, ровно как напечатанное сообщение. С точки зрения агента это просто текст, поэтому голосовой ввод работает одинаково с Claude Code, Codex, Antigravity CLI, OpenCode и Aider.

Быстрее промпты, меньше токенов

Почему продиктовать хороший промпт с самого начала дешевле, чем напечатать скудный и потом итерировать.

Скудный промпт дорог так, что это не видно по часам. Агенту не на чем строить, поэтому он гадает, вы поправляете, он перечитывает весь контекст, вы поправляете снова. Каждый из этих ходов это входные токены, выходные токены и чтения кэша. Три переписки чтобы прояснить фичу могут стоить дороже самой фичи.

Голосовой ввод переворачивает экономику. Поскольку говорить быстро, вы загружаете контекст заранее: ограничения, пути файлов, поведение которого нужно избежать, пример который держите в голове. Агент попадает в цель ближе к первой попытке. Вы меняете тридцать секунд диктовки на два-три избежавших уточняющих цикла.

И это накапливается. Обычный день это десятки промптов. Если голосовой ввод экономит одну переписку на хорошей их части, сэкономленные токены складываются за день, за команду, за месяц. Самый дешёвый токен это тот, который вам никогда не пришлось тратить на повторное объяснение себя.

А ещё это просто меньше трения. Меньше трения означает что вы реально пишете более длинный и хороший промпт вместо ленивого однострочника, который напечатали бы потому что печатать полную версию казалось слишком трудоёмким. Голосовой ввод делает хороший промпт лёгким промптом.

Выберите модель распознавания и язык

Голосовой ввод на десктопе позволяет выбрать модель речи в текст и язык речи в настройках.

Модели распознавания (десктоп)

GPT-4o Transcribe (по умолчанию, лучшее многоязычное качество)
GPT-4o mini Transcribe (почти такой же точный, дешевле)
OpenAI Whisper, whisper-1 (простая поминутная тарификация, надёжная многоязычная база)

Языки речи

Автоопределение (по умолчанию, модель сама определяет язык)
English, Français, Español, Deutsch, Italiano, Português
Русский, 中文, 日本語, 한국어
العربية, हिन्दी, Bahasa Indonesia, Polski, Türkçe, Tiếng Việt

Автоопределение это значение по умолчанию, оно справляется с большинством случаев. Принудительно задайте конкретный язык, когда короткие записи определяются неверно, но задавайте только тот язык, на котором вы действительно говорите. Шестнадцать языков плюс автоопределение, так что вы диктуете своими словами, а ваш агент получает чистый текст.

Что голосовой ввод реально делает под капотом

На десктопе композер записывает ваш голос через браузерный API MediaRecorder и отправляет аудио в бэкенд распознавания AgentsRoom. Распознавание идёт на стороне сервера на выбранной вами модели, так что тяжёлая работа речи в текст не зависит от вашей машины, и текст возвращается обычным текстом, вставленным на позицию курсора. Микрофон, запись и вставка все часть того же композера, в котором вы уже печатаете.

На мобильном голосовой ввод работает иначе, намеренно. Приложение-компаньон использует распознавание речи на устройстве, так что аудио никогда не покидает ваш телефон. Распознанный текст затем передаётся на десктоп через сквозное шифрованное соединение AgentsRoom и кладётся в поле ввода того агента, на котором вы сфокусированы на Mac. Удержите кнопку микрофона, говорите, отпустите, и текст появляется в вашем десктопном агенте.

Обе среды разделяют одно правило: голосовой ввод никогда не отправляет сам по себе. На десктопе распознанный текст ложится в черновик для проверки. На мобильном текст вставляется в поле ввода сфокусированного агента без возврата каретки, так что вы всё равно сами жмёте Enter. Диктовка это способ написать промпт, а не способ выстрелить им вслепую.

Конфигурация нейтральна к провайдеру. Идентификаторы моделей распознавания указывают на бэкенд речи в текст, а не на CLI вашего агента. Будь ваш агент Claude Code, Codex, Antigravity CLI, OpenCode или Aider, продиктованный текст это просто текст в композере, так что голосовой ввод ведёт себя идентично у каждого провайдера, который поддерживает AgentsRoom.

Где работает голосовой ввод

Встроен в десктопный композер и в мобильный компаньон, на шестнадцати языках.

Десктопный композер

Кнопка микрофона в композере агента на macOS. Распознавание на стороне сервера на GPT-4o Transcribe, GPT-4o mini Transcribe или Whisper. Живая звуковая волна во время записи, текст вставлен на позицию курсора, свободно смешивается с печатью. Выберите модель и язык в настройках.

Мобильный компаньон

На компаньоне для iOS и Android удержите микрофон чтобы диктовать. Распознавание речи идёт на устройстве, так что аудио остаётся на телефоне, а распознанный текст передаётся со сквозным шифрованием сфокусированному десктопному агенту. Самый быстрый способ накормить агента из кармана.

Многоязычный

Шестнадцать языков речи плюс автоматическое определение: английский, французский, испанский, немецкий, итальянский, португальский, русский, китайский, японский, корейский, арабский, хинди, индонезийский, польский, турецкий и вьетнамский. Диктуйте на родном языке, ваш агент получит чистый распознанный текст.

Печатать промпты против того чтобы их диктовать

Тот же агент, та же задача. Другая скорость, другой контекст, другой счёт за токены.

Печатать каждый промпт

: Вы печатаете на долю от скорости речи, поэтому промпты остаются короткими.
: Короткие промпты пропускают контекст, поэтому агент гадает, а вы его поправляете.
: Каждая поправка это ещё одна переписка, больше входных и выходных токенов.
: Отдельное приложение для диктовки или системная диктовка означают копипаст между окнами.
: На телефоне мобильная клавиатура делает длинные промпты мучением, поэтому вы почти не промптите.

Диктовать с помощью голосового ввода

: Вы проговариваете весь промпт за секунды, поэтому естественно говорите больше.
: Больше контекста заранее означает что агент попадает в задачу ближе к первой попытке.
: Меньше уточняющих переписок означает меньше токенов на тот же результат.
: Микрофон в композере, распознанный текст ложится в черновик, без копипаста.
: На телефоне удержите микрофон, и текст появляется в вашем десктопном агенте через шифрованный реле.

Голосовой ввод это самый дешёвый способ одновременно сделать каждый промпт длиннее, точнее и быстрее в написании.

Как звучит продиктованный промпт

Вам не нужно ничего из этого писать. Вы проговариваете это вслух, речь в текст превращает это в промпт ниже, и вы жмёте Enter. Попробуйте напечатать настолько подробный промпт и почувствуйте сколько это занимает.

Продиктовано в микрофон

Добавь рейт-лимитер на эндпоинт логина.
Используй скользящее окно из пяти попыток в минуту на один IP.
Возвращай 429 с заголовком Retry-After когда лимит достигнут.
Оставь существующий путь успеха нетронутым.
Добавь юнит-тест на достижение лимита и один на его сброс через минуту.
Не трогай эндпоинт регистрации.

Ничего не отправляется автоматически

Голосовой ввод пишет в черновик, никогда не отправляет. Вы всегда читаете распознанный текст, редактируете его и сами жмёте Enter. Диктовка это более быстрая клавиатура, а не автопилот.

На устройстве на мобильном

На телефоне распознавание речи идёт на устройстве: аудио никогда не покидает ваше устройство. Распознанный текст путешествует к вашему Mac через сквозной шифрованный реле AgentsRoom.

Работает с каждым агентом

Продиктованный текст это просто текст в композере, поэтому голосовой ввод работает одинаково с Claude Code, Codex, Antigravity CLI, OpenCode и Aider. Нейтрален к провайдеру по замыслу.

FAQ

Что такое голосовой ввод в AgentsRoom?

Голосовой ввод это кнопка микрофона в композере агента, которая превращает вашу речь в текст. Вы нажимаете микрофон, диктуете промпт, и распознанный текст вставляется в черновик на позицию курсора. Это встроенная речь в текст для написания промптов вашим ИИ-агентам разработки, без отдельного приложения для диктовки и без копипаста между окнами.

Зачем диктовать промпты вместо того чтобы их печатать?

Скорость, точность и экономия токенов. Вы говорите в несколько раз быстрее чем печатаете, поэтому промпты занимают секунды вместо минут. Поскольку диктовка почти ничего не стоит, вы естественно говорите больше, что делает промпт точнее. Точный промпт означает меньше уточняющих переписок с агентом, а значит меньше токенов на тот же результат.

Какие модели распознавания я могу использовать?

На десктопе вы выбираете из трёх моделей речи в текст в настройках: GPT-4o Transcribe (по умолчанию, лучшее многоязычное качество), GPT-4o mini Transcribe (почти такой же точный и дешевле) и OpenAI Whisper, модель whisper-1 с простой поминутной тарификацией и надёжной многоязычной базой.

Это просто OpenAI Whisper?

Whisper это одна из моделей которую вы можете выбрать, встроенная прямо в композер, а не запущенная как отдельное приложение сбоку. Вы также можете выбрать GPT-4o Transcribe или GPT-4o mini Transcribe. Суть голосового ввода AgentsRoom в том, что диктовка направлена прямо в поле ввода промпта вашего агента, так что вы не диктуете в одно окно и не копипастите в другое.

Какие языки поддерживает голосовой ввод?

Шестнадцать языков речи плюс автоматическое определение: английский, французский, испанский, немецкий, итальянский, португальский, русский, китайский, японский, корейский, арабский, хинди, индонезийский, польский, турецкий и вьетнамский. Автоопределение это значение по умолчанию. Вы можете принудительно задать конкретный язык в настройках, когда короткие записи определяются неверно.

Отправляется ли мой голос на сервер?

Это зависит от среды. На десктопе аудио отправляется в бэкенд распознавания AgentsRoom, который выполняет речь в текст на выбранной вами модели и возвращает текст. На мобильном распознавание речи идёт на устройстве, так что аудио никогда не покидает ваш телефон, и только распознанный текст передаётся на десктоп через сквозное шифрованное соединение.

Отправляется ли промпт автоматически после того как я продиктовал?

Нет. Голосовой ввод всегда кладёт текст в черновик, никогда не отправляет. Вы читаете распознанный текст, исправляете редкое нерасслышанное слово, добавляете или переставляете с клавиатуры если хотите, и жмёте Enter когда готовы. Вы сохраняете контроль над тем, что именно получит ваш агент.

Могу ли я смешивать печать и диктовку в одном промпте?

Да. Распознанный текст вставляется на позицию курсора, а не вместо всего черновика. Так что вы можете напечатать первую половину, продиктовать длинный абзац посередине, затем напечатать последнюю строку. Голосовой ввод это более быстрый способ заполнить композер, полностью совместимый с клавиатурой.

Могу ли я диктовать с телефона агенту на моём Mac?

Да. У мобильного приложения-компаньона есть кнопка микрофона: удержите её, говорите, отпустите. Речь распознаётся на устройстве, и текст передаётся со сквозным шифрованием агенту, на котором вы сфокусированы на десктопе. Это самый быстрый способ отправить промпт вашему Mac-агенту без мобильной клавиатуры.

Работает ли голосовой ввод с Claude Code, Codex и Antigravity?

Да, со всеми из них, плюс OpenCode и Aider. Продиктованный текст это просто текст в композере, а конфигурация распознавания нейтральна к провайдеру, так что голосовой ввод ведёт себя идентично независимо от того, какой CLI агента вы запускаете.

Хорошо сочетается с

Scratchpad

Более крупный редактор промптов в подвале. Продиктуйте длинное задание, отшлифуйте его в scratchpad, затем отправьте агенту.

Библиотека промптов

Сохраняйте промпты которые диктуете как переиспользуемые шаблоны. Голос пишет первый черновик, библиотека хранит хорошие.

Синхронизация мобильного и десктопа

Сквозное шифрованное соединение, которое несёт ваш продиктованный текст с телефона сфокусированному агенту на вашем Mac.

Удалённое управление агентами

Управляйте десктопными агентами с телефона. Диктовка это самый быстрый способ отправить им промпт, когда вы вдали от клавиатуры.

Мультипровайдер

Запускайте Claude, Codex, Antigravity, OpenCode и Aider бок о бок. Голосовой ввод работает одинаково с каждым из них.

Sketch

Рисуйте и делайте пометки в композере. Совместите продиктованный промпт с быстрым скетчем, чтобы дать агенту и слова, и картинку.

Говорите с агентами, перестаньте печатать промпты

Скачайте AgentsRoom и диктуйте промпты прямо в композер. Быстрее в написании, богаче контекстом, легче по токенам. Голосовой ввод встроен в вашу ИИ-среду разработки, на десктопе и на мобильном.

БесплатноСкачать AgentsRoom

Приложение-компаньон: следите за агентами на ходу

Используйте Claude, Codex, Antigravity CLI или другого поставщика AI.

Установить расширение

Chrome Web Store

Отправляйте баги и запросы прямо в ваш публичный бэклог.

Взгляд на AgentsRoom в действии.

Мульти-проекты

Мульти-провайдер

Мульти-агенты

Статус онлайн

Diff и коммиты

Мобильное приложение

Live-превью

Команды агентов

Тесты в браузере

Разработка от backlog

Библиотека промптов

Библиотека навыков

Все функции

Хватит печатать промпты.Диктуйте их.

Зачем диктовать промпты вместо того чтобы их печатать

Как работает голосовой ввод

Нажмите микрофон в композере

Продиктуйте промпт

Остановите, и идёт распознавание

Текст ложится на позицию курсора

Проверьте и отредактируйте

Отправьте когда готовы

Быстрее промпты, меньше токенов

Выберите модель распознавания и язык

Модели распознавания (десктоп)

Языки речи

Что голосовой ввод реально делает под капотом

Где работает голосовой ввод

Десктопный композер

Мобильный компаньон

Многоязычный

Печатать промпты против того чтобы их диктовать

Печатать каждый промпт

Диктовать с помощью голосового ввода

Как звучит продиктованный промпт

FAQ

Хорошо сочетается с

Scratchpad

Библиотека промптов

Синхронизация мобильного и десктопа

Удалённое управление агентами

Мультипровайдер

Sketch

Говорите с агентами, перестаньте печатать промпты

Хватит печатать промпты.
Диктуйте их.