别再手打 prompt。
口述就好。
语音听写就住在代理 composer 里。点麦克风,说出你的 prompt,语音转文字的结果就落进草稿的光标处。这是为你的 AI 编程代理准备的语音转文字,没有要单独伺候的听写 app,也不用在两个窗口之间复制粘贴。
手打一段又长又精确的 prompt 要花上几分钟,口述同一段只要几秒。给代理更多上下文,更少的澄清往返,更少被浪费的 token。价值已经从代码转移到了 prompt 上,而语音听写是写出一个好 prompt 最快的方式。
语音听写实战:点麦克风,说出 prompt,看实时声波动画,语音转文字的转写就落进 composer,随手编辑后即可发送。
语音听写回应的正是这样一个转变。与 AI 编程代理协作时,最难的已经不再是写代码,代码由代理来写。最难的是写 prompt:描述你想要什么、有哪些约束、边界情况、要改哪个文件、要避免哪些行为。一个精确的 prompt,决定了你是一次命中还是十次令人沮丧的往返。而精确的 prompt往往很长,所以手打很慢。
语音听写去掉了打字这道税。你点 composer 里的麦克风按钮,把本来要打的内容全说出来,往往比你愿意手打的还要多,语音转文字的转写就出现在草稿里。你能以每分钟 150 个词说话,却不能以每分钟 150 个词打字。口述就是更快,而更快的通道意味着你能为每个任务给代理更多上下文。
这不是外挂附件。麦克风是 AgentsRoom composer 的一部分,就在 prompt 库和草图工具旁边。转写会插入到你的光标处,所以你可以在同一份草稿里把手打和口述混着用。什么都不会自动发出去:文字落进草稿,你读一遍,改掉模型听错的那一个词,准备好了再按 Enter。这里的语音听写是写作的助手,不是自动驾驶。

麦克风按钮就在 composer 工具栏里。录音时,实时声波显示输入音量,然后转写好的 prompt 出现在草稿中。
为什么要口述 prompt 而不是手打
速度。你说话比打字快好几倍,也不会因为找按键而打断思路。一段两个段落、手打要三分钟的 prompt,口述只要三十秒。在为代理写 prompt 的一整天里,省下的时间会累积成实打实的好几个小时。
精确。因为口述几乎不费力,你会说得更多。你会描述本来会跳过的边界情况、本来不会点名的文件、想要避免的行为。更丰富的 prompt 就是更精确的 prompt,而这正是让 AI 编程代理第一次就把任务做对的关键。
token 经济。与代理的每一次澄清往返都要花 token:代理发问,你回答,它再重读上下文。一开始就给出精确的口述 prompt,能把这些往返压扁。更少的来回意味着达到同样结果花更少的 token,直接省下你的 AI 编程账单。
解放双手,移动可用。在桌面端,你可以在代理运行时腾出双手,把下一个 prompt 用语音口述出来。在手机上,语音听写是喂给代理最快的方式,不必和移动键盘较劲。把想法说出来,它就落进你 Mac 上的代理里。
语音听写怎么用
点麦克风、说话、检查、发送。四步搞定,无需单独 app,不用复制粘贴。
点 composer 里的麦克风
把光标放进代理 composer,点工具栏里的麦克风按钮。第一次时,macOS 会请求麦克风权限,AgentsRoom 把这个请求转交给系统,你只需授权一次。
说出你的 prompt
按钮切换为录音状态:一个带实时语音声波的脉动状态,实时显示你的输入音量,让你知道麦克风确实在采集声音。用你自己的语言,把你想让代理知道的都说出来。
停止,它就开始转写
再点一次停止。音频被送到你选的转写模型(默认 GPT-4o Transcribe,也可选 GPT-4o mini Transcribe 或 OpenAI Whisper)。在语音转文字运行时,按钮显示转写中的状态。
转写落到你的光标处
转写好的文字插入到草稿的光标位置,需要时会自动补一个分隔空格。光标位置会被还原,所以你可以继续打字或再口述一段。在同一个 prompt 里,手打和口述可以自由混合。
检查并编辑
现在什么都还没发出去。prompt 停在草稿里。读一遍,改掉模型偶尔听错的词,用键盘加一行,调整一下句序。代理究竟收到什么,完全由你掌控。
准备好就发送
按 Enter 把 prompt 发给代理,和手打的消息完全一样。在代理看来这只是文字,所以语音听写在 Claude Code、Codex、Gemini CLI、OpenCode 和 Aider 上的表现都一样。
prompt 更快,token 更少
为什么一开始就口述一个更好的 prompt,比手打一个单薄的再反复迭代更划算。
一个单薄的 prompt,贵在一种不显示在时钟上的地方。代理没有足够的依据,于是它猜,你纠正,它重读整个上下文,你再纠正。每一轮都是输入 token、输出 token 和缓存读取。为了澄清一个功能而来回三次,可能比这个功能本身还贵。
语音听写把这笔账翻了过来。因为说话很快,你会把上下文前置:约束、文件路径、要避免的行为、你心里那个例子。代理更接近一次就做对。你用三十秒的口述,换掉两三个被避免的澄清循环。
而且会复利累积。普通的一天就是几十个 prompt。如果语音听写在其中相当一部分上各省下一次往返,省下的 token 就会在一天、一个团队、一个月里不断叠加。最便宜的 token,是你压根不必花在重新解释自己上的那一个。
它也单纯就是更少摩擦。更少摩擦意味着你真的会去写那个更长、更好的 prompt,而不是因为觉得手打完整版太费劲而打出一句懒散的单行。语音听写让好 prompt 成为最省事的 prompt。
选择你的转写模型和语言
桌面端的语音听写让你在设置里选择语音转文字模型和口述语言。
转写模型(桌面端)
- GPT-4o Transcribe(默认,多语言质量最佳)
- GPT-4o mini Transcribe(几乎同样准确,更便宜)
- OpenAI Whisper,whisper-1(按分钟简单计费,多语言基线扎实)
口述语言
- 自动检测(默认,由模型判断语言)
- English, Français, Español, Deutsch, Italiano, Português
- Русский, 中文, 日本語, 한국어
- العربية, हिन्दी, Bahasa Indonesia, Polski, Türkçe, Tiếng Việt
自动检测是默认设置,能应付大多数情况。当短录音被误判时,可以强制指定一种语言,但只强制你实际在说的那种语言。十六种语言加自动检测,你用自己的话口述,代理收到干净的文字。
语音听写在底层究竟做了什么
在桌面端,composer 用浏览器的 MediaRecorder API 录下你的声音,并把音频发送到 AgentsRoom 的转写后端。转写在服务端用你选的模型运行,所以繁重的语音转文字工作不依赖你的机器,转写结果以纯文本返回并插入到你的光标处。麦克风、录音和插入都属于你本来就在打字的同一个 composer。
在移动端,语音听写有意采用不同的方式。配套 app 使用本地语音识别,所以音频永远不会离开你的手机。识别出的文字随后通过 AgentsRoom 端到端加密连接被中继到桌面端,落进你在 Mac 上聚焦的那个代理的输入框。按住麦克风按钮,说话,松手,文字就出现在你的桌面代理里。
两端共享同一条规则:语音听写绝不自行发送。在桌面端,转写落进草稿供你检查。在移动端,文字被粘贴进聚焦的代理输入框,且不带回车,所以仍由你自己按 Enter。口述是写 prompt 的方式,不是盲发它的方式。
配置与 provider 无关。转写模型 id 对应的是语音转文字后端,而非你的代理 CLI。无论你的代理是 Claude Code、Codex、Gemini CLI、OpenCode 还是 Aider,口述出的文字在 composer 里都只是文字,所以语音听写在 AgentsRoom 支持的每一个 provider 上表现完全一致。
语音听写在哪里可用
内置于桌面 composer 和移动配套 app,支持十六种语言。
桌面 composer
macOS 上代理 composer 里的一个麦克风按钮。在 GPT-4o Transcribe、GPT-4o mini Transcribe 或 Whisper 上做服务端转写。录音时有实时语音声波,转写插入到光标处,可与手打自由混合。在设置里选你的模型和语言。
移动配套 app
在 iOS 和 Android 配套 app 上,按住麦克风即可口述。语音识别在本地运行,音频留在手机上,识别出的文字以端到端加密中继到聚焦的桌面代理。这是从口袋里喂给代理最快的方式。
多语言
十六种口述语言加自动检测:英语、法语、西班牙语、德语、意大利语、葡萄牙语、俄语、中文、日语、韩语、阿拉伯语、印地语、印尼语、波兰语、土耳其语和越南语。用你的母语口述,代理收到干净的转写文字。
手打 prompt 对比口述 prompt
同一个代理,同一个任务。速度不同,上下文不同,token 账单也不同。
每个 prompt 都手打
- : 你打字的速度只是说话速度的一小部分,所以 prompt 总是很短。
- : 短 prompt 省略了上下文,于是代理靠猜,你再去纠正它。
- : 每一次纠正都是又一次往返,更多的输入和输出 token。
- : 单独的听写 app 或系统听写意味着要在窗口之间复制粘贴。
- : 在手机上,移动键盘让长 prompt 变得痛苦,于是你几乎不怎么写 prompt 了。
用语音听写来口述
- : 你几秒就说完整个 prompt,自然就说得更多。
- : 更多前置上下文意味着代理更接近一次就把任务做对。
- : 更少的澄清往返意味着达到同样结果花更少的 token。
- : 麦克风就在 composer 里,转写落进草稿,无需复制粘贴。
- : 在手机上,按住麦克风,文字就通过加密中继出现在你的桌面代理里。
语音听写是同时让每个 prompt 更长、更精确、写起来更快的最便宜方式。
一个口述出来的 prompt 听起来是什么样
这些你都不用手打。你把它说出来,语音转文字就把它变成下面这个 prompt,然后你按 Enter。试着手打一个这么详细的 prompt,感受一下要花多长时间。
对着麦克风说出来
给登录 endpoint 加一个限流器。
使用滑动窗口,每个 IP 每分钟五次尝试。
触达上限时返回 429,并带上 Retry-After header。
保持现有的成功路径不变。
加一个单元测试覆盖触达上限的情况,再加一个覆盖一分钟后重置的情况。
不要动注册 endpoint。FAQ
AgentsRoom 里的语音听写是什么?
语音听写是代理 composer 里的一个麦克风按钮,把你的语音转成文字。你点麦克风,说出你的 prompt,转写好的文字就插入到草稿的光标处。这是为向 AI 编程代理写 prompt 而内置的语音转文字,无需单独的听写 app,也不用在窗口之间复制粘贴。
为什么要口述 prompt 而不是手打?
速度、精确和 token 经济。你说话比打字快好几倍,所以 prompt 花几秒而不是几分钟。因为口述几乎不费力,你自然会说得更多,从而让 prompt 更精确。精确的 prompt 意味着与代理更少的澄清往返,也就意味着达到同样结果花更少的 token。
我可以用哪些转写模型?
在桌面端,你可以在设置里从三个语音转文字模型中选择:GPT-4o Transcribe(默认,多语言质量最佳)、GPT-4o mini Transcribe(几乎同样准确且更便宜),以及 OpenAI Whisper,即 whisper-1 模型,按分钟简单计费,多语言基线扎实。
这不就是 OpenAI Whisper 吗?
Whisper 是你可以选的模型之一,它直接内置在 composer 里,而不是作为旁边单独的 app 运行。你也可以选 GPT-4o Transcribe 或 GPT-4o mini Transcribe。AgentsRoom 语音听写的要点在于,口述直接对准代理的 prompt 输入框,所以你不必在一个窗口口述再复制粘贴到另一个窗口。
语音听写支持哪些语言?
十六种口述语言加自动检测:英语、法语、西班牙语、德语、意大利语、葡萄牙语、俄语、中文、日语、韩语、阿拉伯语、印地语、印尼语、波兰语、土耳其语和越南语。自动检测是默认设置。当短录音被误判时,你可以在设置里强制指定一种语言。
我的声音会被发到服务器吗?
这取决于在哪一端。在桌面端,音频会被发送到 AgentsRoom 转写后端,由它用你选的模型运行语音转文字并返回文字。在移动端,语音识别在本地运行,所以音频永远不会离开你的手机,只有识别出的文字通过端到端加密连接被中继到桌面端。
口述完之后 prompt 会自动发送吗?
不会。语音听写总是把文字落进草稿,绝不替你发送。你读转写,改掉偶尔听错的词,需要的话用键盘添加或调整顺序,准备好了再按 Enter。代理究竟收到什么,始终由你掌控。
我能在同一个 prompt 里混用手打和口述吗?
可以。转写插入到你的光标处,而不是替换整份草稿。所以你可以先打前半段,在中间口述一个长段落,再打最后一行。语音听写是更快填满 composer 的方式,与键盘完全兼容。
我能从手机口述给 Mac 上的代理吗?
可以。移动配套 app 有一个麦克风按钮:按住它,说话,松手。语音在本地被识别,文字以端到端加密中继到你在桌面端聚焦的那个代理。这是不用移动键盘就把 prompt 喂给 Mac 代理最快的方式。
语音听写能配合 Claude Code、Codex 和 Gemini 用吗?
可以,全都能,还有 OpenCode 和 Aider。口述出的文字在 composer 里只是文字,而转写配置与 provider 无关,所以无论你运行的是哪个代理 CLI,语音听写的表现都完全一致。
搭配使用更好
Scratchpad
footer 里一个更大的 prompt 编辑器。口述一段长简报,在 scratchpad 里打磨它,然后发给你的代理。
Prompt 库
把你口述的 prompt 存成可复用的模板。语音写出第一稿,prompt 库把好的留下来。
移动端与桌面端同步
把你口述的文字从手机送到 Mac 上聚焦代理的端到端加密链路。
远程代理控制
从手机驾驶你的桌面代理。离开键盘时,口述是给它们发 prompt 最快的方式。
多 provider
把 Claude、Codex、Gemini、OpenCode 和 Aider 并排运行。语音听写在它们每一个上的表现都一样。
Sketch
在 composer 里画图和标注。把口述的 prompt 配上一张速写,同时给代理文字和图像。
对你的代理说话,别再手打 prompt
下载 AgentsRoom,把 prompt 直接口述进 composer。写起来更快,上下文更丰富,token 更省。把语音听写内置进你的 AI 编程 IDE,桌面端和移动端都能用。
配套应用:随时随地监控你的 Agent
使用 Claude、Codex、Gemini CLI 或其他 AI 提供商。
把 Bug 和需求直接发送到您的公开待办清单。
AgentsRoom 实际运行一瞥。