Voice Mode：对你的代理说话，听它回话

别再盯着终端读了。
直接跟你的代理说话。

Voice Mode 是与一个正在运行的 AI 编程代理进行的双向语音对话。点一下，说出你的那一轮，代理就用自然的声音出声回答。不用打字提示，也不用滚动一墙的终端输出去弄清发生了什么。

打开免提，它就在每次回复之间继续聆听，于是你可以一边踱步、一边看构建、一边喝咖啡，一边把方案讲清楚。问一句重构进展到哪了，它告诉你。说一句跑一下测试再汇报，它就去跑，然后把结果念出来。

AgentsRoom Voice Mode：与 AI 编程代理的双向语音对话，带实时指示的聆听状态、免提开关、提示音、可选的回复声音以及自动语言识别

Voice Mode 实际运行：代理正在聆听，免提已开启，回复声音已设定，代理在你的每轮之间出声回答。

Voice Mode 回应的正是这样一种转变。你的代理运行得更久、自己做得更多：它编辑文件、运行命令、写测试、修复自己弄坏的东西。瓶颈不再是写代码，而是在代理工作时跟上节奏。一行又一行地读终端输出，或者再敲一句提示去问到底怎么了，每一轮都把你拽回键盘前。

Voice Mode 把这个循环变成一场对话。你出声说出你的那一轮，代理出声回答。你提问、给出纠正、批准一个方案，全都靠声音完成，而且你听到的是用自然声音念出来的回复，而不是在屏幕上费劲解读。这就是监督一个进程和与一位队友交谈之间的区别。

这和语音听写不是一回事。听写是单向的：你说话，它把你的话转写进 composer，你还是要去读代理的回复。Voice Mode 是双向的：语音进，语音出，一来一回的实时往返。听写帮你更快写出一段提示。Voice Mode 让你在保持代理运转的同时彻底甩开键盘和屏幕。

为什么要跟代理说话，而不是打字和读屏

免提待在循环里。一个能干的代理可以为一条指令运行好几分钟。有了免提的 Voice Mode，你全程保持联络，不用守在键盘上。问个状态、引导下一步、确认一个决定，全都可以在你站在白板前或看着 app 重载时完成。

一来一回的自然往返。打一句提示、等待、读输出、再打一句，是一个磕磕绊绊的循环。说出你的那一轮再听到答案，则是一场对话。对短回合（一个快速的好、一处小纠正、再问一个问题）它更快，也比每次更新都去读一墙终端文字省力得多。

解放眼睛，解放屏幕。听到代理的回复，意味着你不必盯着终端就知道它做了什么。瞥一眼构建、你的测试、你的设计，或者什么都不看，让念出来的更新告诉你进展如何。代理在旁白，你把眼睛留在真正干活的地方。

用同一份语音额度。Voice Mode 使用 AgentsRoom 的语音后端，进来时做语音转文字、出去时做文字转语音，从与听写相同的语音额度余额里扣。一份余额同时支撑提示的听写和完整的语音对话，所以没有额外的东西要去配置。

Voice Mode 怎么用

在一个正在运行的代理上打开它，说、听、再来一遍。用一个语音循环代替打字加读屏。

在正在运行的代理上打开 Voice Mode

Voice Mode 是为一个已经在它的终端里运行的代理启动的，从那个代理的 composer 里打开。它需要一个活动会话，因为这场对话是和那个特定代理、在它当前的上下文里进行的，而不是一个全新的对话。

点一下开口说

点一下并说出你的那一轮：一个问题、一条指令、一处纠正。状态切换到聆听并带一个实时指示，让你看到麦克风正在采集。选免提让它在各轮之间继续聆听，或选点按说话一次只说一轮。

它转写并发给代理

你说完后，你的语音会被转写并作为你的消息发进正在运行的代理，就好像你亲手打出来的一样。状态会经过转写和发送，让你随时知道你的这一轮走到了流程的哪一步。

代理开始工作

代理在它自己的会话里处理你的这一轮：它可以读文件、运行命令、编辑代码、跑测试，凡是你消息里要求的都行。Voice Mode 在它干活时显示一个带代理名字的工作状态，就像终端里普通的一轮。

听它把回复出声念出来

代理回答时，它的回复会用你挑的声音出声念出来。你听到状态、结果、下一个问题，都不用去读终端。一个可选的提示音标出各轮之间的分界，让你知道什么时候又轮到你了。

接着说你的下一轮

在免提下，它已经又在聆听了，你只管继续说。在点按说话下，你点一下来开始你的下一轮。对话可以想持续多久就持续多久，然后你关掉 Voice Mode，代理就停在你在它终端里离开它的那个地方。

免提，让你不靠键盘也待在循环里

Voice Mode 的意义不在于新鲜。它在于不被拴在桌前也能跟上一个快速的代理。

一个现代编程代理每一轮都做很多事，而你各轮之间的间隙正是你平时会丢掉上下文的地方：你走开，代理做完，你回来面对满屏现在得去读的输出。免提的 Voice Mode 补上了这个缺口。代理做完时出声告诉你它做了什么，你不用重新坐下就能回答。

免提在各轮之间保持麦克风打开，于是对话像打电话一样流畅：你说、它做、它说、你再说。想控制每一轮？点按说话一次只说一轮，在嘈杂的房间里、或者你只想偶尔插一句话时很方便。

提示音是个小东西，但在实际中很重要。当你没看屏幕时，一声短促的提示音告诉你代理已经说完、轮到你了，这样你既不会抢着它说话，也不会在沉默里干等、琢磨它是不是说完了。

这正是让 Voice Mode 对真实工作有用、而不只是一个演示的地方。它是为这样的时刻打造的：代理在挑大梁，而你想去引导、确认、批准，同时你的手和眼睛都腾出来做别的一切。

挑你的声音，跟住这场对话

Voice Mode 给你那些让语音对话舒服的控制项，并清楚地告诉你每一轮走到了哪里。

声音与提示

回复声音：alloy 以及其他自然声音
免提：在各轮之间继续聆听
点按说话：一次只说一轮
提示音：一声短促的音标出每轮的分界
自动语言：用你自己的话说，它识别语言

对话状态

聆听：麦克风正在采集你的这一轮
转写：你的语音正被转成文字
发送：你的消息正发往代理
工作：代理正在干活
说话：代理的回复正被出声念出来

自动语言识别意味着你不用先挑一种语言就能开口说，而可见的状态意味着你永远不用去猜代理是听到了你、在工作、还是即将回答。

Voice Mode 在底层到底做了什么

Voice Mode 是叠在一个普通代理会话之上的全双工层。轮到你时，它录下你的声音并把音频发到 AgentsRoom 后端，后端做语音转文字并返回转写。这段转写作为你的消息被注入正在运行的代理，所以从代理的角度看，这只是它早已在和你进行的对话里又多出的一轮。

轮到代理时，它的文字回复被送回 AgentsRoom 后端，用你选的声音做文字转语音，生成的音频再放给你听。语音转文字进，文字转语音出，中间是代理真正的工作。这正是 Voice Mode 需要一个账户和一个正在运行的代理的原因：语音后端代理那些语音模型，而这场对话绑定在一个活动会话上。

因为代理永远只看到文字，Voice Mode 从构造上就对供应商保持中立。无论代理是 Claude Code、Codex、Antigravity CLI、OpenCode、Aider、Grok Build、Mistral Vibe 还是 Kimi Code，你转写出来的那一轮都作为一条消息抵达，而它的回复也以同样的方式被念出来。语音层里没有任何东西取决于底下跑的是哪个 CLI。

Voice Mode 和语音听写共用同一份语音额度余额，因为两者都依赖同一个语音后端。听写花额度做单向转写；Voice Mode 把额度花在转写加念出回复的一来一回上，这本质上是开放式的，因为一场对话只要你一直说就能一直进行下去。

Voice Mode 在哪里用

与一个正在运行的桌面代理进行的双向语音对话，语音进、语音出。

桌面端，在一个活动代理上

Voice Mode 在 macOS 上运行，从一个已经在运行的代理的 composer 里启动。它和那个特定代理在它当前的会话里交谈，所以这场对话拥有代理积累起来的全部上下文，而不是一张白纸。

语音进

你的这一轮由麦克风采集、由 AgentsRoom 语音后端转写，然后作为你的消息发给代理。免提在各轮之间保持麦克风打开；点按说话一次只说一轮。语言会自动识别。

语音出

代理的回复会用你选的声音（alloy 等）通过文字转语音出声念出来。一个可选的提示音标出每段念出回复的结尾，让你即使没看屏幕也知道轮到你了。

语音听写 vs Voice Mode

两者都用你的声音。一个替你写提示，另一个跟你对话。

语音听写（单向）

: 你说话，它把你的话转写进 composer。
: 你还是得自己在屏幕上读代理的回复。
: 很适合快速写出一段又长又精确的提示。
: 你守在键盘前去发送、去读结果。
: 只有一个方向：语音进，文字进草稿，接下来由你来。

Voice Mode（双向）

: 你说出你的那一轮，代理出声回答。
: 你听到回复，不必去读终端。
: 很适合在代理工作时引导和确认。
: 免提让对话不靠键盘也能继续下去。
: 两个方向都有：语音进，代理工作，语音出。

用听写在几秒内写出一段好提示，用 Voice Mode 在代理执行它时跟它对话。

一轮口头交流听起来是什么样

这些你一个字都不用打。你出声说出你的那一轮，代理去干活，然后它把回复念回给你。这是一轮 Voice Mode 对话。

一轮对话

你：登录重构进展到哪了？
代理：限流器已经接上，成功路径没动。还有两个测试是红的。
你：把那两个失败的测试修好，然后跑整个测试套件，告诉我数量。
代理：搞定。两个现在都通过了。完整套件：142 个通过，0 个失败。
你：好。用一条简短的消息提交，就停在这。

每一轮都由你开始

Voice Mode 不会自己行动。你点一下或开口来开始一轮，代理只做你口头消息所要求的事。点按说话给你逐轮的控制；免提只在 Voice Mode 打开时才聆听。

账户和活动代理

Voice Mode 需要一个登录的账户，因为语音后端代理那些语音模型并扣语音额度；也需要一个正在运行的代理，因为这场对话绑定在那个活动会话和它的上下文上。

兼容每一个代理

代理只看到文字，所以 Voice Mode 在 Claude Code、Codex、Antigravity CLI、OpenCode、Aider、Grok Build、Mistral Vibe 和 Kimi Code 上表现一致。语音层包住这个会话，从不取决于底下是哪个 CLI。

FAQ

AgentsRoom 里的 Voice Mode 是什么？

Voice Mode 是与一个正在运行的 AI 编程代理进行的双向语音对话。你点一下并说出你的那一轮，你的语音被转写并发给代理，代理去干活，它的回复再用自然的声音念回给你。它让你跟代理对话、听它的回答，而不必打字提示、读终端输出。

Voice Mode 和语音听写有什么不同？

语音听写是单向的：你说话，你的话作为提示被转写进 composer，然后你在屏幕上读代理的回复。Voice Mode 是双向的：你说出你的那一轮，代理出声回答，一来一回的实时口头往返。听写帮你更快写出一段提示；Voice Mode 让你在代理工作时进行一场免提对话。

代理真的会回话吗？

会。代理的回复会通过文字转语音转成声音，并用你挑的声音出声播放。你听到状态、结果和下一个问题，所以不用去读终端就知道代理做了什么。

免提模式是什么？

免提在各轮之间保持麦克风打开，于是对话像打电话一样流畅：你说、代理工作、它说，然后它已经在聆听你的下一轮。如果你更想控制每一轮，点按说话一次只说一轮，在嘈杂的房间里很方便。

我能选声音吗？

能。你挑选用于代理口头回答的回复声音（alloy 及其他声音）。你还可以打开一个可选的提示音，它会在各轮的分界处发一声短促的音，让你知道代理什么时候说完、什么时候轮到你。

Voice Mode 支持哪些语言？

Voice Mode 自动识别你说的语言，所以你可以用自己的话说话，不必先挑一种语言。转写由 AgentsRoom 语音后端处理，和听写用的是同一套语音栈。

我需要账户和一个正在运行的代理吗？

两个都需要。Voice Mode 需要一个登录的账户，因为语音后端代理那些语音模型并扣你的语音额度；它也需要一个已经在运行的代理，因为这场对话绑定在那个活动会话上、并使用它当前的上下文。

Voice Mode 会消耗额度吗？

会。Voice Mode 跑在和听写相同的语音额度余额上。听写花额度做单向转写；Voice Mode 把额度花在转写加念出回复的完整一来一回上，这是开放式的，因为一场对话只要你一直说就能一直进行下去。

在线网页演示里能用吗？

不能。公开的网页演示模拟了后端，所以实时语音对话在那里跑不起来。在演示里点 Voice Mode 会显示一条提示，邀请你下载 AgentsRoom，在那里 Voice Mode 才会跟你真正的代理对话。

Voice Mode 能配合 Claude Code、Codex 和 Antigravity 用吗？

能，全都可以，还有 OpenCode、Aider、Grok Build、Mistral Vibe 和 Kimi Code。代理永远只看到文字，所以你口头的那一轮作为一条消息抵达，它的回复也以同样的方式被念出来，无论底下跑的是哪个代理 CLI。

搭配使用更佳

语音听写

Voice Mode 的单向同伴。用声音把一段又长又精确的提示口述进 composer，然后在代理执行它时跟它对话。

远程代理控制

用手机驱动你的桌面代理。当你离开键盘时，声音是跟上一个代理最自然的方式。

移动端-桌面端同步

你手机和桌面代理之间端到端加密的连接，让你与 Mac 上正在运行的东西保持相连。

代理状态

一眼看清谁在工作、谁完成了、谁卡住了。Voice Mode 让你出声向一个正在工作的代理问这个状态。

多供应商

让 Claude、Codex、Antigravity、OpenCode、Aider、Grok Build、Mistral Vibe 和 Kimi Code 并排运行。Voice Mode 以同样的方式跟它们中的任何一个对话。

Scratchpad

页脚里一个更大的编辑器，用于笔记和更长的简报。当一轮太长或太精确而不便口述时，把它和语音搭配起来用。

对你的代理说话，听它们回话

下载 AgentsRoom，在一个正在运行的代理上打开 Voice Mode。说出你的那一轮，听到回复，在代理干活时免提待在循环里。一场内置在你 AI 编程 IDE 里的双向语音对话。

配套应用：随时随地监控你的 Agent

使用 Claude、Codex、Antigravity CLI 或其他 AI 提供商。

获取扩展

Chrome Web Store

把 Bug 和需求直接发送到您的公开待办清单。

AgentsRoom 实际运行一瞥。

多项目管理

多供应商

多代理运行

实时状态

文件差异与提交

移动应用

实时预览

代理团队

浏览器自动化

Backlog 驱动开发

提示词库

技能库

查看所有功能

别再盯着终端读了。直接跟你的代理说话。

为什么要跟代理说话，而不是打字和读屏

Voice Mode 怎么用

在正在运行的代理上打开 Voice Mode

点一下开口说

它转写并发给代理

代理开始工作

听它把回复出声念出来

接着说你的下一轮

免提，让你不靠键盘也待在循环里

挑你的声音，跟住这场对话

声音与提示

对话状态

Voice Mode 在底层到底做了什么

Voice Mode 在哪里用

桌面端，在一个活动代理上

语音进

语音出

语音听写 vs Voice Mode

语音听写（单向）

Voice Mode（双向）

一轮口头交流听起来是什么样

FAQ

搭配使用更佳

语音听写

远程代理控制

移动端-桌面端同步

代理状态

多供应商

Scratchpad

对你的代理说话，听它们回话

别再盯着终端读了。
直接跟你的代理说话。