Pare de ler o terminal.
Fale com o seu agente.
O Voice Mode é uma conversa por voz bidirecional com um agente de programação de IA em execução. Um toque, diz a sua vez, e o agente responde em voz alta com uma voz natural. Sem prompt para escrever, sem paredes de output do terminal para percorrer só para saber o que aconteceu.
Ative o modo mãos-livres e ele continua à escuta entre as respostas : pode andar pela sala, ver a build ou tomar o seu café enquanto discute o plano. Pergunte em que ponto está o refactor e ele diz-lhe. Diga corre os testes e dá-me o resultado : ele corre-os e depois anuncia o resultado em voz alta.

Voice Mode em ação : o agente está à escuta, o modo mãos-livres está ativo, a voz da resposta está definida, e o agente responde em voz alta entre as suas vezes.
Eis a mudança a que o Voice Mode responde. O seu agente corre durante mais tempo e faz mais por conta própria : edita ficheiros, corre comandos, escreve testes, repara o que partiu. O estrangulamento já não é escrever o código, é manter-se a par enquanto o agente trabalha. Ler linha a linha o output do terminal, ou escrever mais um prompt para perguntar o que se passa, traz você de volta ao teclado a cada uma das suas vezes.
O Voice Mode transforma esse ciclo numa conversa. Você diz a sua vez em voz alta, o agente responde em voz alta. Faz uma pergunta, dá uma correção, aprova um plano, tudo por voz, e ouve a resposta dita em voz natural em vez de a decifrar no ecrã. É a diferença entre supervisionar um processo e falar com um colega de equipa.
Isto não é o mesmo que o ditado por voz. O ditado é unidirecional : você fala, ele transcreve as suas palavras no composer, e mesmo assim lê a resposta do agente. O Voice Mode é bidirecional : voz à entrada, voz à saída, uma verdadeira troca ao vivo. O ditado ajuda-o a escrever um prompt mais depressa. O Voice Mode permite-lhe dispensar o teclado e o ecrã por completo enquanto mantém um agente em movimento.
Porquê falar com o seu agente em vez de escrever e ler
Mantenha-se a par, em mãos-livres. Um agente capaz pode correr durante minutos a partir de uma única instrução. Com o Voice Mode em mãos-livres, mantém-se em contacto todo o tempo sem ficar agarrado ao teclado. Peça um estado, oriente o passo seguinte, confirme uma decisão, tudo enquanto está de pé junto ao quadro ou a ver a app recarregar.
Uma verdadeira troca. Escrever um prompt, esperar, ler o output, voltar a escrever é um ciclo aos solavancos. Dizer a sua vez e ouvir a resposta é uma conversa. É mais rápido para as vezes curtas (um sim rápido, uma pequena correção, mais uma pergunta) e muito menos cansativo do que ler paredes de texto do terminal a cada atualização.
Olhos livres, ecrã livre. Ouvir a resposta do agente significa que não precisa de olhar para o terminal para saber o que ele fez. Dê uma vista de olhos à build, aos seus testes, ao seu design, ou a nada de todo, e deixe que a atualização por voz lhe diga em que ponto estão as coisas. O agente narra, você mantém os olhos onde está o verdadeiro trabalho.
Nos mesmos créditos de voz. O Voice Mode usa o backend de voz do AgentsRoom, reconhecimento de voz à entrada e síntese de voz à saída, recorrendo ao mesmo saldo de créditos de voz do ditado. Um único saldo alimenta tanto o ditado de prompts como as conversas por voz completas : não há nada mais para configurar.
Como funciona o Voice Mode
Abra-o num agente em execução, fale, ouça, repita. Um ciclo falado em vez de escrever-e-ler.
Abra o Voice Mode num agente em execução
O Voice Mode arranca para um agente já em execução no seu terminal, a partir do composer desse agente. Precisa de uma sessão ativa porque a conversa é com esse agente específico, no seu contexto atual, não um chat em branco.
Toque para falar
Um toque e diz a sua vez : uma pergunta, uma instrução, uma correção. O estado passa para escuta com um indicador ao vivo, para que veja que o microfone está a captar. Escolha o mãos-livres para que continue à escuta entre as vezes, ou o tocar-para-falar para tratar de uma vez de cada vez.
Transcreve e envia ao agente
Quando termina, a sua fala é transcrita e enviada ao agente em execução como a sua mensagem, exatamente como se a tivesse escrito. O estado passa por transcrição e envio, para que saiba sempre em que ponto está a sua vez na pipeline.
O agente trabalha
O agente processa a sua vez na sua própria sessão : pode ler ficheiros, correr comandos, editar código, executar testes, tudo o que a sua mensagem pediu. O Voice Mode mostra um estado de trabalho com o nome do agente enquanto faz a tarefa, tal como uma vez normal no terminal.
Ouça a resposta em voz alta
Quando o agente responde, a resposta é lida em voz alta na voz que escolheu. Ouve o estado, o resultado, a pergunta seguinte, sem ler o terminal. Um sinal sonoro opcional marca a fronteira entre as vezes para que saiba quando é de novo a sua vez.
Tome a sua vez seguinte
Em mãos-livres, já está de novo à escuta, basta continuar a falar. No tocar-para-falar, toca para iniciar a sua vez seguinte. A conversa continua durante o tempo que quiser, depois fecha o Voice Mode e o agente fica exatamente onde o deixou no seu terminal.
Mãos-livres, para se manter a par sem o teclado
O propósito do Voice Mode não é a novidade. É acompanhar um agente rápido sem estar acorrentado à secretária.
Um agente de programação moderno faz muito por vez, e os intervalos entre as suas vezes são onde normalmente perderia o contexto : afasta-se, o agente termina, e regressa a um ecrã cheio de output que tem agora de ler. O Voice Mode em mãos-livres fecha essa lacuna. O agente diz-lhe o que fez quando termina, em voz alta, e você responde sem se voltar a sentar.
O mãos-livres mantém o microfone aberto entre as vezes, para que a conversa flua como um telefonema : você fala, ele trabalha, ele fala, você volta a falar. Prefere controlar cada vez ? O tocar-para-falar trata de uma vez de cada vez, prático numa sala barulhenta ou quando só quer intervir de vez em quando.
O sinal sonoro é um pequeno detalhe que conta na prática. Quando não está a olhar para o ecrã, um breve sinal diz-lhe que o agente acabou de falar e que é a sua vez, para que não lhe corte a palavra nem espere em silêncio a perguntar-se se ele terminou.
É isto que torna o Voice Mode útil para trabalho a sério e não apenas uma demonstração. Foi feito para os momentos em que o agente faz o grosso do trabalho e você quer orientar, fazer o ponto da situação e aprovar, enquanto as suas mãos e os seus olhos estão livres para tudo o resto.
Escolha a sua voz, acompanhe a conversa
O Voice Mode dá-lhe os controlos que tornam confortável uma conversa falada, e mostra-lhe exatamente em que ponto está cada vez.
Vozes e sinais
- Voz da resposta : alloy e outras vozes naturais
- Mãos-livres : continua à escuta entre as vezes
- Tocar-para-falar : uma vez de cada vez
- Sinal sonoro : um breve som marca a fronteira de cada vez
- Idioma automático : fale com as suas palavras, ele deteta o idioma
Estados da conversa
- Escuta : o microfone está a captar a sua vez
- Transcrição : a sua fala está a ser convertida em texto
- Envio : a sua mensagem está a seguir para o agente
- Trabalho : o agente está a fazer a tarefa
- Fala : a resposta do agente está a ser lida em voz alta
A deteção automática do idioma significa que não tem de escolher um idioma para começar a falar, e os estados visíveis fazem com que nunca esteja a adivinhar se o agente o ouviu, está a trabalhar ou está prestes a responder.
O que o Voice Mode faz realmente por dentro
O Voice Mode é uma camada full duplex por cima de uma sessão de agente normal. Na sua vez, grava a sua voz e envia o áudio ao backend do AgentsRoom, que executa o reconhecimento de voz e devolve a transcrição. Essa transcrição é injetada no agente em execução como a sua mensagem, por isso, do ponto de vista do agente, é só mais uma vez da conversa que já está a ter consigo.
Na vez do agente, a sua resposta em texto é reenviada ao backend do AgentsRoom para síntese de voz na voz que selecionou, e o áudio resultante é-lhe reproduzido. Reconhecimento de voz à entrada, síntese de voz à saída, com o verdadeiro trabalho do agente pelo meio. É por isso que o Voice Mode precisa de uma conta e de um agente em execução : o backend de voz faz de proxy aos modelos de fala e a conversa está ligada a uma sessão ativa.
Como o agente só vê texto, o Voice Mode é neutro em relação ao provider por construção. Seja o agente Claude Code, Codex, Gemini CLI, OpenCode ou Aider, a sua vez transcrita chega como mensagem e a resposta é dita da mesma forma. Nada na camada de voz depende de qual CLI corre por baixo.
O Voice Mode e o Voice Dictation partilham o mesmo saldo de créditos de voz, já que ambos se apoiam no mesmo backend de fala. O ditado gasta créditos para transcrever num só sentido ; o Voice Mode gasta-os na ida e volta da transcrição mais as respostas faladas, aberto por natureza porque uma conversa pode durar enquanto continuar a falar.
Onde funciona o Voice Mode
Uma conversa falada bidirecional com um agente desktop em execução, voz à entrada e voz à saída.
Desktop, num agente ativo
O Voice Mode corre em macOS, lançado a partir do composer de um agente já em execução. Fala com esse agente específico na sua sessão atual, por isso a conversa tem todo o contexto que o agente acumulou, não uma página em branco.
Voz à entrada
A sua vez é captada pelo microfone e transcrita pelo backend de voz do AgentsRoom, depois enviada ao agente como a sua mensagem. O mãos-livres mantém o microfone aberto entre as vezes ; o tocar-para-falar trata de uma vez de cada vez. O idioma deteta-se sozinho.
Voz à saída
A resposta do agente é lida em voz alta com síntese de voz na voz que escolhe (alloy e outras). Um sinal sonoro opcional marca o fim de cada resposta falada para que saiba que é a sua vez, mesmo sem olhar para o ecrã.
Ditado por voz vs Voice Mode
Ambos usam a sua voz. Um escreve um prompt por si, o outro mantém uma conversa.
Ditado por voz (num só sentido)
- : Você fala, ele transcreve as suas palavras no composer.
- : Mesmo assim, lê você próprio a resposta do agente no ecrã.
- : Ótimo para escrever depressa um prompt longo e preciso.
- : Fica no teclado para enviar e para ler o resultado.
- : Um só sentido : voz à entrada, texto no rascunho, e a partir daí é consigo.
Voice Mode (bidirecional)
- : Você diz a sua vez, o agente responde em voz alta.
- : Ouve a resposta, sem precisar de ler o terminal.
- : Ótimo para orientar e fazer o ponto enquanto o agente trabalha.
- : O mãos-livres mantém a conversa viva sem o teclado.
- : Ambos os sentidos : voz à entrada, o agente trabalha, voz à saída.
Use o ditado para escrever um ótimo prompt em segundos, e o Voice Mode para falar com o agente enquanto o executa.
Como soa uma vez falada
Você não escreve nada disto. Diz a sua vez em voz alta, o agente faz o trabalho, e responde-lhe em voz alta. Aqui está uma ronda de uma conversa Voice Mode.
Uma ronda de conversa
Você : Em que ponto estamos no refactor do login ?
Agente : O rate limiter está implementado e o caminho de sucesso está intacto. Dois testes ainda estão vermelhos.
Você : Corrige os dois testes que falham, depois corre toda a suite e diz-me a contagem.
Agente : Feito. Os dois passam agora. Suite completa : 142 passaram, 0 falharam.
Você : Bom. Faz commit com uma mensagem curta e para por aí.FAQ
O que é o Voice Mode no AgentsRoom ?
O Voice Mode é uma conversa por voz bidirecional com um agente de programação de IA em execução. Você toca e diz a sua vez, a sua fala é transcrita e enviada ao agente, o agente faz o trabalho, e a resposta é-lhe lida em voz alta com uma voz natural. Permite-lhe falar com um agente e ouvir as respostas em vez de escrever prompts e ler o output do terminal.
Em que é que o Voice Mode é diferente do ditado por voz ?
O ditado por voz é num só sentido : você fala e as suas palavras são transcritas no composer como um prompt, depois lê a resposta do agente no ecrã. O Voice Mode é bidirecional : você diz a sua vez e o agente responde em voz alta, uma troca falada ao vivo. O ditado ajuda-o a escrever um prompt mais depressa ; o Voice Mode permite-lhe manter uma conversa em mãos-livres enquanto o agente trabalha.
O agente fala mesmo de volta ?
Sim. A resposta do agente é convertida em fala com síntese de voz e reproduzida em voz alta na voz que escolher. Ouve o estado, o resultado e a pergunta seguinte, por isso não tem de ler o terminal para saber o que o agente fez.
O que é o modo mãos-livres ?
O mãos-livres mantém o microfone aberto entre as vezes, para que a conversa flua como um telefonema : você fala, o agente trabalha, ele fala, e já está à escuta da sua vez seguinte. Se preferir controlar cada vez, o tocar-para-falar trata de uma vez de cada vez, prático numa sala barulhenta.
Posso escolher a voz ?
Sim. Escolhe a voz da resposta (alloy e outras vozes) usada para as respostas faladas do agente. Pode também ativar um sinal sonoro opcional, que toca um breve som na fronteira entre as vezes para que saiba quando o agente acabou de falar e é a sua vez.
Que idiomas suporta o Voice Mode ?
O Voice Mode deteta automaticamente o idioma em que fala, por isso pode falar com as suas palavras sem escolher primeiro um idioma. A transcrição é tratada pelo backend de voz do AgentsRoom, a mesma stack de fala usada no ditado.
Preciso de uma conta e de um agente em execução ?
Sim a ambos. O Voice Mode precisa de uma conta com sessão iniciada porque o backend de voz faz de proxy aos modelos de fala e recorre aos seus créditos de voz, e precisa de um agente já em execução, porque a conversa está ligada a essa sessão ativa e usa o seu contexto atual.
O Voice Mode gasta créditos ?
Sim. O Voice Mode corre sobre o mesmo saldo de créditos de voz do ditado. O ditado gasta créditos para transcrever a sua fala num só sentido ; o Voice Mode gasta-os na ida e volta completa da transcrição mais as respostas faladas, aberto por natureza porque uma conversa pode durar enquanto continuar a falar.
Está disponível na demonstração web ao vivo ?
Não. A demonstração web pública simula o backend, por isso a conversa por voz em tempo real não pode correr aí. Clicar no Voice Mode na demonstração mostra um aviso a convidá-lo a descarregar o AgentsRoom, onde o Voice Mode fala com os seus verdadeiros agentes.
O Voice Mode funciona com Claude Code, Codex e Gemini ?
Sim, com todos, além de OpenCode e Aider. O agente só vê texto, por isso a sua vez falada chega como mensagem e a resposta é dita da mesma forma, seja qual for o CLI de agente que corra por baixo.
Combina bem com
Ditado por voz
O irmão num só sentido do Voice Mode. Dite um prompt longo e preciso no composer por voz, depois fale com o agente enquanto o executa.
Controlo remoto de agentes
Pilote os seus agentes desktop a partir do telemóvel. A voz é a forma mais natural de acompanhar um agente quando está longe do teclado.
Sync mobile-desktop
A ligação cifrada de ponta a ponta entre o seu telemóvel e os seus agentes desktop, para que se mantenha ligado ao que corre no seu Mac.
Estado dos agentes
Veja quem está a trabalhar, quem terminou, quem está bloqueado de relance. O Voice Mode deixa-o pedir esse estado em voz alta a um agente em execução.
Multi-Provider
Ponha Claude, Codex, Gemini, OpenCode e Aider a correr lado a lado. O Voice Mode fala com qualquer um deles da mesma forma.
Scratchpad
Um editor maior no rodapé para notas e briefings mais longos. Combine-o com a voz quando uma vez for demasiado longa ou demasiado precisa para dizer.
Fale com os seus agentes, ouça-os responder
Descarregue o AgentsRoom e abra o Voice Mode num agente em execução. Diga a sua vez, ouça a resposta e mantenha-se a par em mãos-livres enquanto o agente faz o trabalho. Uma conversa por voz bidirecional integrada no seu IDE de programação de IA.
App complementar: acompanhe seus agentes em qualquer lugar
Use Claude, Codex, Gemini CLI ou outro provedor de IA.
Envie bugs e pedidos direto para o seu backlog público.
Uma visão do AgentsRoom em ação.