别再盯着终端读了。
直接跟你的代理说话。
Voice Mode 是与一个正在运行的 AI 编程代理进行的双向语音对话。点一下,说出你的那一轮,代理就用自然的声音出声回答。不用打字提示,也不用滚动一墙的终端输出去弄清发生了什么。
打开免提,它就在每次回复之间继续聆听,于是你可以一边踱步、一边看构建、一边喝咖啡,一边把方案讲清楚。问一句重构进展到哪了,它告诉你。说一句跑一下测试再汇报,它就去跑,然后把结果念出来。

Voice Mode 实际运行:代理正在聆听,免提已开启,回复声音已设定,代理在你的每轮之间出声回答。
Voice Mode 回应的正是这样一种转变。你的代理运行得更久、自己做得更多:它编辑文件、运行命令、写测试、修复自己弄坏的东西。瓶颈不再是写代码,而是在代理工作时跟上节奏。一行又一行地读终端输出,或者再敲一句提示去问到底怎么了,每一轮都把你拽回键盘前。
Voice Mode 把这个循环变成一场对话。你出声说出你的那一轮,代理出声回答。你提问、给出纠正、批准一个方案,全都靠声音完成,而且你听到的是用自然声音念出来的回复,而不是在屏幕上费劲解读。这就是监督一个进程和与一位队友交谈之间的区别。
这和语音听写不是一回事。听写是单向的:你说话,它把你的话转写进 composer,你还是要去读代理的回复。Voice Mode 是双向的:语音进,语音出,一来一回的实时往返。听写帮你更快写出一段提示。Voice Mode 让你在保持代理运转的同时彻底甩开键盘和屏幕。
为什么要跟代理说话,而不是打字和读屏
免提待在循环里。一个能干的代理可以为一条指令运行好几分钟。有了免提的 Voice Mode,你全程保持联络,不用守在键盘上。问个状态、引导下一步、确认一个决定,全都可以在你站在白板前或看着 app 重载时完成。
一来一回的自然往返。打一句提示、等待、读输出、再打一句,是一个磕磕绊绊的循环。说出你的那一轮再听到答案,则是一场对话。对短回合(一个快速的好、一处小纠正、再问一个问题)它更快,也比每次更新都去读一墙终端文字省力得多。
解放眼睛,解放屏幕。听到代理的回复,意味着你不必盯着终端就知道它做了什么。瞥一眼构建、你的测试、你的设计,或者什么都不看,让念出来的更新告诉你进展如何。代理在旁白,你把眼睛留在真正干活的地方。
用同一份语音额度。Voice Mode 使用 AgentsRoom 的语音后端,进来时做语音转文字、出去时做文字转语音,从与听写相同的语音额度余额里扣。一份余额同时支撑提示的听写和完整的语音对话,所以没有额外的东西要去配置。
Voice Mode 怎么用
在一个正在运行的代理上打开它,说、听、再来一遍。用一个语音循环代替打字加读屏。
在正在运行的代理上打开 Voice Mode
Voice Mode 是为一个已经在它的终端里运行的代理启动的,从那个代理的 composer 里打开。它需要一个活动会话,因为这场对话是和那个特定代理、在它当前的上下文里进行的,而不是一个全新的对话。
点一下开口说
点一下并说出你的那一轮:一个问题、一条指令、一处纠正。状态切换到聆听并带一个实时指示,让你看到麦克风正在采集。选免提让它在各轮之间继续聆听,或选点按说话一次只说一轮。
它转写并发给代理
你说完后,你的语音会被转写并作为你的消息发进正在运行的代理,就好像你亲手打出来的一样。状态会经过转写和发送,让你随时知道你的这一轮走到了流程的哪一步。
代理开始工作
代理在它自己的会话里处理你的这一轮:它可以读文件、运行命令、编辑代码、跑测试,凡是你消息里要求的都行。Voice Mode 在它干活时显示一个带代理名字的工作状态,就像终端里普通的一轮。
听它把回复出声念出来
代理回答时,它的回复会用你挑的声音出声念出来。你听到状态、结果、下一个问题,都不用去读终端。一个可选的提示音标出各轮之间的分界,让你知道什么时候又轮到你了。
接着说你的下一轮
在免提下,它已经又在聆听了,你只管继续说。在点按说话下,你点一下来开始你的下一轮。对话可以想持续多久就持续多久,然后你关掉 Voice Mode,代理就停在你在它终端里离开它的那个地方。
免提,让你不靠键盘也待在循环里
Voice Mode 的意义不在于新鲜。它在于不被拴在桌前也能跟上一个快速的代理。
一个现代编程代理每一轮都做很多事,而你各轮之间的间隙正是你平时会丢掉上下文的地方:你走开,代理做完,你回来面对满屏现在得去读的输出。免提的 Voice Mode 补上了这个缺口。代理做完时出声告诉你它做了什么,你不用重新坐下就能回答。
免提在各轮之间保持麦克风打开,于是对话像打电话一样流畅:你说、它做、它说、你再说。想控制每一轮?点按说话一次只说一轮,在嘈杂的房间里、或者你只想偶尔插一句话时很方便。
提示音是个小东西,但在实际中很重要。当你没看屏幕时,一声短促的提示音告诉你代理已经说完、轮到你了,这样你既不会抢着它说话,也不会在沉默里干等、琢磨它是不是说完了。
这正是让 Voice Mode 对真实工作有用、而不只是一个演示的地方。它是为这样的时刻打造的:代理在挑大梁,而你想去引导、确认、批准,同时你的手和眼睛都腾出来做别的一切。
挑你的声音,跟住这场对话
Voice Mode 给你那些让语音对话舒服的控制项,并清楚地告诉你每一轮走到了哪里。
声音与提示
- 回复声音:alloy 以及其他自然声音
- 免提:在各轮之间继续聆听
- 点按说话:一次只说一轮
- 提示音:一声短促的音标出每轮的分界
- 自动语言:用你自己的话说,它识别语言
对话状态
- 聆听:麦克风正在采集你的这一轮
- 转写:你的语音正被转成文字
- 发送:你的消息正发往代理
- 工作:代理正在干活
- 说话:代理的回复正被出声念出来
自动语言识别意味着你不用先挑一种语言就能开口说,而可见的状态意味着你永远不用去猜代理是听到了你、在工作、还是即将回答。
Voice Mode 在底层到底做了什么
Voice Mode 是叠在一个普通代理会话之上的全双工层。轮到你时,它录下你的声音并把音频发到 AgentsRoom 后端,后端做语音转文字并返回转写。这段转写作为你的消息被注入正在运行的代理,所以从代理的角度看,这只是它早已在和你进行的对话里又多出的一轮。
轮到代理时,它的文字回复被送回 AgentsRoom 后端,用你选的声音做文字转语音,生成的音频再放给你听。语音转文字进,文字转语音出,中间是代理真正的工作。这正是 Voice Mode 需要一个账户和一个正在运行的代理的原因:语音后端代理那些语音模型,而这场对话绑定在一个活动会话上。
因为代理永远只看到文字,Voice Mode 从构造上就对供应商保持中立。无论代理是 Claude Code、Codex、Gemini CLI、OpenCode 还是 Aider,你转写出来的那一轮都作为一条消息抵达,而它的回复也以同样的方式被念出来。语音层里没有任何东西取决于底下跑的是哪个 CLI。
Voice Mode 和语音听写共用同一份语音额度余额,因为两者都依赖同一个语音后端。听写花额度做单向转写;Voice Mode 把额度花在转写加念出回复的一来一回上,这本质上是开放式的,因为一场对话只要你一直说就能一直进行下去。
Voice Mode 在哪里用
与一个正在运行的桌面代理进行的双向语音对话,语音进、语音出。
桌面端,在一个活动代理上
Voice Mode 在 macOS 上运行,从一个已经在运行的代理的 composer 里启动。它和那个特定代理在它当前的会话里交谈,所以这场对话拥有代理积累起来的全部上下文,而不是一张白纸。
语音进
你的这一轮由麦克风采集、由 AgentsRoom 语音后端转写,然后作为你的消息发给代理。免提在各轮之间保持麦克风打开;点按说话一次只说一轮。语言会自动识别。
语音出
代理的回复会用你选的声音(alloy 等)通过文字转语音出声念出来。一个可选的提示音标出每段念出回复的结尾,让你即使没看屏幕也知道轮到你了。
语音听写 vs Voice Mode
两者都用你的声音。一个替你写提示,另一个跟你对话。
语音听写(单向)
- : 你说话,它把你的话转写进 composer。
- : 你还是得自己在屏幕上读代理的回复。
- : 很适合快速写出一段又长又精确的提示。
- : 你守在键盘前去发送、去读结果。
- : 只有一个方向:语音进,文字进草稿,接下来由你来。
Voice Mode(双向)
- : 你说出你的那一轮,代理出声回答。
- : 你听到回复,不必去读终端。
- : 很适合在代理工作时引导和确认。
- : 免提让对话不靠键盘也能继续下去。
- : 两个方向都有:语音进,代理工作,语音出。
用听写在几秒内写出一段好提示,用 Voice Mode 在代理执行它时跟它对话。
一轮口头交流听起来是什么样
这些你一个字都不用打。你出声说出你的那一轮,代理去干活,然后它把回复念回给你。这是一轮 Voice Mode 对话。
一轮对话
你:登录重构进展到哪了?
代理:限流器已经接上,成功路径没动。还有两个测试是红的。
你:把那两个失败的测试修好,然后跑整个测试套件,告诉我数量。
代理:搞定。两个现在都通过了。完整套件:142 个通过,0 个失败。
你:好。用一条简短的消息提交,就停在这。FAQ
AgentsRoom 里的 Voice Mode 是什么?
Voice Mode 是与一个正在运行的 AI 编程代理进行的双向语音对话。你点一下并说出你的那一轮,你的语音被转写并发给代理,代理去干活,它的回复再用自然的声音念回给你。它让你跟代理对话、听它的回答,而不必打字提示、读终端输出。
Voice Mode 和语音听写有什么不同?
语音听写是单向的:你说话,你的话作为提示被转写进 composer,然后你在屏幕上读代理的回复。Voice Mode 是双向的:你说出你的那一轮,代理出声回答,一来一回的实时口头往返。听写帮你更快写出一段提示;Voice Mode 让你在代理工作时进行一场免提对话。
代理真的会回话吗?
会。代理的回复会通过文字转语音转成声音,并用你挑的声音出声播放。你听到状态、结果和下一个问题,所以不用去读终端就知道代理做了什么。
免提模式是什么?
免提在各轮之间保持麦克风打开,于是对话像打电话一样流畅:你说、代理工作、它说,然后它已经在聆听你的下一轮。如果你更想控制每一轮,点按说话一次只说一轮,在嘈杂的房间里很方便。
我能选声音吗?
能。你挑选用于代理口头回答的回复声音(alloy 及其他声音)。你还可以打开一个可选的提示音,它会在各轮的分界处发一声短促的音,让你知道代理什么时候说完、什么时候轮到你。
Voice Mode 支持哪些语言?
Voice Mode 自动识别你说的语言,所以你可以用自己的话说话,不必先挑一种语言。转写由 AgentsRoom 语音后端处理,和听写用的是同一套语音栈。
我需要账户和一个正在运行的代理吗?
两个都需要。Voice Mode 需要一个登录的账户,因为语音后端代理那些语音模型并扣你的语音额度;它也需要一个已经在运行的代理,因为这场对话绑定在那个活动会话上、并使用它当前的上下文。
Voice Mode 会消耗额度吗?
会。Voice Mode 跑在和听写相同的语音额度余额上。听写花额度做单向转写;Voice Mode 把额度花在转写加念出回复的完整一来一回上,这是开放式的,因为一场对话只要你一直说就能一直进行下去。
在线网页演示里能用吗?
不能。公开的网页演示模拟了后端,所以实时语音对话在那里跑不起来。在演示里点 Voice Mode 会显示一条提示,邀请你下载 AgentsRoom,在那里 Voice Mode 才会跟你真正的代理对话。
Voice Mode 能配合 Claude Code、Codex 和 Gemini 用吗?
能,全都可以,还有 OpenCode 和 Aider。代理永远只看到文字,所以你口头的那一轮作为一条消息抵达,它的回复也以同样的方式被念出来,无论底下跑的是哪个代理 CLI。
搭配使用更佳
语音听写
Voice Mode 的单向同伴。用声音把一段又长又精确的提示口述进 composer,然后在代理执行它时跟它对话。
远程代理控制
用手机驱动你的桌面代理。当你离开键盘时,声音是跟上一个代理最自然的方式。
移动端-桌面端同步
你手机和桌面代理之间端到端加密的连接,让你与 Mac 上正在运行的东西保持相连。
代理状态
一眼看清谁在工作、谁完成了、谁卡住了。Voice Mode 让你出声向一个正在工作的代理问这个状态。
多供应商
让 Claude、Codex、Gemini、OpenCode 和 Aider 并排运行。Voice Mode 以同样的方式跟它们中的任何一个对话。
Scratchpad
页脚里一个更大的编辑器,用于笔记和更长的简报。当一轮太长或太精确而不便口述时,把它和语音搭配起来用。
对你的代理说话,听它们回话
下载 AgentsRoom,在一个正在运行的代理上打开 Voice Mode。说出你的那一轮,听到回复,在代理干活时免提待在循环里。一场内置在你 AI 编程 IDE 里的双向语音对话。
配套应用:随时随地监控你的 Agent
使用 Claude、Codex、Gemini CLI 或其他 AI 提供商。
把 Bug 和需求直接发送到您的公开待办清单。
AgentsRoom 实际运行一瞥。