Voice Mode : fale com o seu agente, ouça-o responder

Pare de ler o terminal.
Fale com o seu agente.

O Voice Mode é uma conversa por voz bidirecional com um agente de programação de IA em execução. Um toque, diz a sua vez, e o agente responde em voz alta com uma voz natural. Sem prompt para escrever, sem paredes de output do terminal para percorrer só para saber o que aconteceu.

Ative o modo mãos-livres e ele continua à escuta entre as respostas : pode andar pela sala, ver a build ou tomar o seu café enquanto discute o plano. Pergunte em que ponto está o refactor e ele diz-lhe. Diga corre os testes e dá-me o resultado : ele corre-os e depois anuncia o resultado em voz alta.

Descarregar o AgentsRoom Veja como funciona o Voice Mode

Voice Mode do AgentsRoom : uma conversa por voz bidirecional com um agente de programação de IA, um estado de escuta com um indicador ao vivo, um interruptor mãos-livres, um sinal sonoro, uma voz de resposta selecionável e a deteção automática do idioma

Voice Mode em ação : o agente está à escuta, o modo mãos-livres está ativo, a voz da resposta está definida, e o agente responde em voz alta entre as suas vezes.

Eis a mudança a que o Voice Mode responde. O seu agente corre durante mais tempo e faz mais por conta própria : edita ficheiros, corre comandos, escreve testes, repara o que partiu. O estrangulamento já não é escrever o código, é manter-se a par enquanto o agente trabalha. Ler linha a linha o output do terminal, ou escrever mais um prompt para perguntar o que se passa, traz você de volta ao teclado a cada uma das suas vezes.

O Voice Mode transforma esse ciclo numa conversa. Você diz a sua vez em voz alta, o agente responde em voz alta. Faz uma pergunta, dá uma correção, aprova um plano, tudo por voz, e ouve a resposta dita em voz natural em vez de a decifrar no ecrã. É a diferença entre supervisionar um processo e falar com um colega de equipa.

Isto não é o mesmo que o ditado por voz. O ditado é unidirecional : você fala, ele transcreve as suas palavras no composer, e mesmo assim lê a resposta do agente. O Voice Mode é bidirecional : voz à entrada, voz à saída, uma verdadeira troca ao vivo. O ditado ajuda-o a escrever um prompt mais depressa. O Voice Mode permite-lhe dispensar o teclado e o ecrã por completo enquanto mantém um agente em movimento.

Porquê falar com o seu agente em vez de escrever e ler

Mantenha-se a par, em mãos-livres. Um agente capaz pode correr durante minutos a partir de uma única instrução. Com o Voice Mode em mãos-livres, mantém-se em contacto todo o tempo sem ficar agarrado ao teclado. Peça um estado, oriente o passo seguinte, confirme uma decisão, tudo enquanto está de pé junto ao quadro ou a ver a app recarregar.

Uma verdadeira troca. Escrever um prompt, esperar, ler o output, voltar a escrever é um ciclo aos solavancos. Dizer a sua vez e ouvir a resposta é uma conversa. É mais rápido para as vezes curtas (um sim rápido, uma pequena correção, mais uma pergunta) e muito menos cansativo do que ler paredes de texto do terminal a cada atualização.

Olhos livres, ecrã livre. Ouvir a resposta do agente significa que não precisa de olhar para o terminal para saber o que ele fez. Dê uma vista de olhos à build, aos seus testes, ao seu design, ou a nada de todo, e deixe que a atualização por voz lhe diga em que ponto estão as coisas. O agente narra, você mantém os olhos onde está o verdadeiro trabalho.

Nos mesmos créditos de voz. O Voice Mode usa o backend de voz do AgentsRoom, reconhecimento de voz à entrada e síntese de voz à saída, recorrendo ao mesmo saldo de créditos de voz do ditado. Um único saldo alimenta tanto o ditado de prompts como as conversas por voz completas : não há nada mais para configurar.

Como funciona o Voice Mode

Abra-o num agente em execução, fale, ouça, repita. Um ciclo falado em vez de escrever-e-ler.

Abra o Voice Mode num agente em execução

O Voice Mode arranca para um agente já em execução no seu terminal, a partir do composer desse agente. Precisa de uma sessão ativa porque a conversa é com esse agente específico, no seu contexto atual, não um chat em branco.

Toque para falar

Um toque e diz a sua vez : uma pergunta, uma instrução, uma correção. O estado passa para escuta com um indicador ao vivo, para que veja que o microfone está a captar. Escolha o mãos-livres para que continue à escuta entre as vezes, ou o tocar-para-falar para tratar de uma vez de cada vez.

Transcreve e envia ao agente

Quando termina, a sua fala é transcrita e enviada ao agente em execução como a sua mensagem, exatamente como se a tivesse escrito. O estado passa por transcrição e envio, para que saiba sempre em que ponto está a sua vez na pipeline.

O agente trabalha

O agente processa a sua vez na sua própria sessão : pode ler ficheiros, correr comandos, editar código, executar testes, tudo o que a sua mensagem pediu. O Voice Mode mostra um estado de trabalho com o nome do agente enquanto faz a tarefa, tal como uma vez normal no terminal.

Ouça a resposta em voz alta

Quando o agente responde, a resposta é lida em voz alta na voz que escolheu. Ouve o estado, o resultado, a pergunta seguinte, sem ler o terminal. Um sinal sonoro opcional marca a fronteira entre as vezes para que saiba quando é de novo a sua vez.

Tome a sua vez seguinte

Em mãos-livres, já está de novo à escuta, basta continuar a falar. No tocar-para-falar, toca para iniciar a sua vez seguinte. A conversa continua durante o tempo que quiser, depois fecha o Voice Mode e o agente fica exatamente onde o deixou no seu terminal.

Mãos-livres, para se manter a par sem o teclado

O propósito do Voice Mode não é a novidade. É acompanhar um agente rápido sem estar acorrentado à secretária.

Um agente de programação moderno faz muito por vez, e os intervalos entre as suas vezes são onde normalmente perderia o contexto : afasta-se, o agente termina, e regressa a um ecrã cheio de output que tem agora de ler. O Voice Mode em mãos-livres fecha essa lacuna. O agente diz-lhe o que fez quando termina, em voz alta, e você responde sem se voltar a sentar.

O mãos-livres mantém o microfone aberto entre as vezes, para que a conversa flua como um telefonema : você fala, ele trabalha, ele fala, você volta a falar. Prefere controlar cada vez ? O tocar-para-falar trata de uma vez de cada vez, prático numa sala barulhenta ou quando só quer intervir de vez em quando.

O sinal sonoro é um pequeno detalhe que conta na prática. Quando não está a olhar para o ecrã, um breve sinal diz-lhe que o agente acabou de falar e que é a sua vez, para que não lhe corte a palavra nem espere em silêncio a perguntar-se se ele terminou.

É isto que torna o Voice Mode útil para trabalho a sério e não apenas uma demonstração. Foi feito para os momentos em que o agente faz o grosso do trabalho e você quer orientar, fazer o ponto da situação e aprovar, enquanto as suas mãos e os seus olhos estão livres para tudo o resto.

Escolha a sua voz, acompanhe a conversa

O Voice Mode dá-lhe os controlos que tornam confortável uma conversa falada, e mostra-lhe exatamente em que ponto está cada vez.

Vozes e sinais

Voz da resposta : alloy e outras vozes naturais
Mãos-livres : continua à escuta entre as vezes
Tocar-para-falar : uma vez de cada vez
Sinal sonoro : um breve som marca a fronteira de cada vez
Idioma automático : fale com as suas palavras, ele deteta o idioma

Estados da conversa

Escuta : o microfone está a captar a sua vez
Transcrição : a sua fala está a ser convertida em texto
Envio : a sua mensagem está a seguir para o agente
Trabalho : o agente está a fazer a tarefa
Fala : a resposta do agente está a ser lida em voz alta

A deteção automática do idioma significa que não tem de escolher um idioma para começar a falar, e os estados visíveis fazem com que nunca esteja a adivinhar se o agente o ouviu, está a trabalhar ou está prestes a responder.

O que o Voice Mode faz realmente por dentro

O Voice Mode é uma camada full duplex por cima de uma sessão de agente normal. Na sua vez, grava a sua voz e envia o áudio ao backend do AgentsRoom, que executa o reconhecimento de voz e devolve a transcrição. Essa transcrição é injetada no agente em execução como a sua mensagem, por isso, do ponto de vista do agente, é só mais uma vez da conversa que já está a ter consigo.

Na vez do agente, a sua resposta em texto é reenviada ao backend do AgentsRoom para síntese de voz na voz que selecionou, e o áudio resultante é-lhe reproduzido. Reconhecimento de voz à entrada, síntese de voz à saída, com o verdadeiro trabalho do agente pelo meio. É por isso que o Voice Mode precisa de uma conta e de um agente em execução : o backend de voz faz de proxy aos modelos de fala e a conversa está ligada a uma sessão ativa.

Como o agente só vê texto, o Voice Mode é neutro em relação ao provider por construção. Seja o agente Claude Code, Codex, Antigravity CLI, OpenCode, Aider, Grok Build, Mistral Vibe ou Kimi Code, a sua vez transcrita chega como mensagem e a resposta é dita da mesma forma. Nada na camada de voz depende de qual CLI corre por baixo.

O Voice Mode e o Voice Dictation partilham o mesmo saldo de créditos de voz, já que ambos se apoiam no mesmo backend de fala. O ditado gasta créditos para transcrever num só sentido ; o Voice Mode gasta-os na ida e volta da transcrição mais as respostas faladas, aberto por natureza porque uma conversa pode durar enquanto continuar a falar.

Onde funciona o Voice Mode

Uma conversa falada bidirecional com um agente desktop em execução, voz à entrada e voz à saída.

Desktop, num agente ativo

O Voice Mode corre em macOS, lançado a partir do composer de um agente já em execução. Fala com esse agente específico na sua sessão atual, por isso a conversa tem todo o contexto que o agente acumulou, não uma página em branco.

Voz à entrada

A sua vez é captada pelo microfone e transcrita pelo backend de voz do AgentsRoom, depois enviada ao agente como a sua mensagem. O mãos-livres mantém o microfone aberto entre as vezes ; o tocar-para-falar trata de uma vez de cada vez. O idioma deteta-se sozinho.

Voz à saída

A resposta do agente é lida em voz alta com síntese de voz na voz que escolhe (alloy e outras). Um sinal sonoro opcional marca o fim de cada resposta falada para que saiba que é a sua vez, mesmo sem olhar para o ecrã.

Ditado por voz vs Voice Mode

Ambos usam a sua voz. Um escreve um prompt por si, o outro mantém uma conversa.

Ditado por voz (num só sentido)

: Você fala, ele transcreve as suas palavras no composer.
: Mesmo assim, lê você próprio a resposta do agente no ecrã.
: Ótimo para escrever depressa um prompt longo e preciso.
: Fica no teclado para enviar e para ler o resultado.
: Um só sentido : voz à entrada, texto no rascunho, e a partir daí é consigo.

Voice Mode (bidirecional)

: Você diz a sua vez, o agente responde em voz alta.
: Ouve a resposta, sem precisar de ler o terminal.
: Ótimo para orientar e fazer o ponto enquanto o agente trabalha.
: O mãos-livres mantém a conversa viva sem o teclado.
: Ambos os sentidos : voz à entrada, o agente trabalha, voz à saída.

Use o ditado para escrever um ótimo prompt em segundos, e o Voice Mode para falar com o agente enquanto o executa.

Como soa uma vez falada

Você não escreve nada disto. Diz a sua vez em voz alta, o agente faz o trabalho, e responde-lhe em voz alta. Aqui está uma ronda de uma conversa Voice Mode.

Uma ronda de conversa

Você : Em que ponto estamos no refactor do login ?
Agente : O rate limiter está implementado e o caminho de sucesso está intacto. Dois testes ainda estão vermelhos.
Você : Corrige os dois testes que falham, depois corre toda a suite e diz-me a contagem.
Agente : Feito. Os dois passam agora. Suite completa : 142 passaram, 0 falharam.
Você : Bom. Faz commit com uma mensagem curta e para por aí.

É você que inicia cada vez

O Voice Mode não age sozinho. Você toca ou fala para tomar a sua vez, e o agente só faz o que a sua mensagem falada pediu. O tocar-para-falar dá-lhe controlo vez a vez ; o mãos-livres só escuta enquanto o Voice Mode estiver aberto.

Conta e agente ativo

O Voice Mode precisa de uma conta com sessão iniciada, porque o backend de voz faz de proxy aos modelos de fala e cobra créditos de voz, e de um agente em execução, porque a conversa está ligada a essa sessão ativa e ao seu contexto.

Funciona com todos os agentes

O agente só vê texto, por isso o Voice Mode comporta-se da mesma forma com Claude Code, Codex, Antigravity CLI, OpenCode, Aider, Grok Build, Mistral Vibe e Kimi Code. A camada de voz envolve a sessão e nunca depende de qual CLI está por baixo.

FAQ

O que é o Voice Mode no AgentsRoom ?

O Voice Mode é uma conversa por voz bidirecional com um agente de programação de IA em execução. Você toca e diz a sua vez, a sua fala é transcrita e enviada ao agente, o agente faz o trabalho, e a resposta é-lhe lida em voz alta com uma voz natural. Permite-lhe falar com um agente e ouvir as respostas em vez de escrever prompts e ler o output do terminal.

Em que é que o Voice Mode é diferente do ditado por voz ?

O ditado por voz é num só sentido : você fala e as suas palavras são transcritas no composer como um prompt, depois lê a resposta do agente no ecrã. O Voice Mode é bidirecional : você diz a sua vez e o agente responde em voz alta, uma troca falada ao vivo. O ditado ajuda-o a escrever um prompt mais depressa ; o Voice Mode permite-lhe manter uma conversa em mãos-livres enquanto o agente trabalha.

O agente fala mesmo de volta ?

Sim. A resposta do agente é convertida em fala com síntese de voz e reproduzida em voz alta na voz que escolher. Ouve o estado, o resultado e a pergunta seguinte, por isso não tem de ler o terminal para saber o que o agente fez.

O que é o modo mãos-livres ?

O mãos-livres mantém o microfone aberto entre as vezes, para que a conversa flua como um telefonema : você fala, o agente trabalha, ele fala, e já está à escuta da sua vez seguinte. Se preferir controlar cada vez, o tocar-para-falar trata de uma vez de cada vez, prático numa sala barulhenta.

Posso escolher a voz ?

Sim. Escolhe a voz da resposta (alloy e outras vozes) usada para as respostas faladas do agente. Pode também ativar um sinal sonoro opcional, que toca um breve som na fronteira entre as vezes para que saiba quando o agente acabou de falar e é a sua vez.

Que idiomas suporta o Voice Mode ?

O Voice Mode deteta automaticamente o idioma em que fala, por isso pode falar com as suas palavras sem escolher primeiro um idioma. A transcrição é tratada pelo backend de voz do AgentsRoom, a mesma stack de fala usada no ditado.

Preciso de uma conta e de um agente em execução ?

Sim a ambos. O Voice Mode precisa de uma conta com sessão iniciada porque o backend de voz faz de proxy aos modelos de fala e recorre aos seus créditos de voz, e precisa de um agente já em execução, porque a conversa está ligada a essa sessão ativa e usa o seu contexto atual.

O Voice Mode gasta créditos ?

Sim. O Voice Mode corre sobre o mesmo saldo de créditos de voz do ditado. O ditado gasta créditos para transcrever a sua fala num só sentido ; o Voice Mode gasta-os na ida e volta completa da transcrição mais as respostas faladas, aberto por natureza porque uma conversa pode durar enquanto continuar a falar.

Está disponível na demonstração web ao vivo ?

Não. A demonstração web pública simula o backend, por isso a conversa por voz em tempo real não pode correr aí. Clicar no Voice Mode na demonstração mostra um aviso a convidá-lo a descarregar o AgentsRoom, onde o Voice Mode fala com os seus verdadeiros agentes.

O Voice Mode funciona com Claude Code, Codex e Antigravity ?

Sim, com todos, além de OpenCode, Aider, Grok Build, Mistral Vibe e Kimi Code. O agente só vê texto, por isso a sua vez falada chega como mensagem e a resposta é dita da mesma forma, seja qual for o CLI de agente que corra por baixo.

Combina bem com

Ditado por voz

O irmão num só sentido do Voice Mode. Dite um prompt longo e preciso no composer por voz, depois fale com o agente enquanto o executa.

Controlo remoto de agentes

Pilote os seus agentes desktop a partir do telemóvel. A voz é a forma mais natural de acompanhar um agente quando está longe do teclado.

Sync mobile-desktop

A ligação cifrada de ponta a ponta entre o seu telemóvel e os seus agentes desktop, para que se mantenha ligado ao que corre no seu Mac.

Estado dos agentes

Veja quem está a trabalhar, quem terminou, quem está bloqueado de relance. O Voice Mode deixa-o pedir esse estado em voz alta a um agente em execução.

Multi-Provider

Ponha Claude, Codex, Antigravity, OpenCode, Aider, Grok Build, Mistral Vibe e Kimi Code a correr lado a lado. O Voice Mode fala com qualquer um deles da mesma forma.

Scratchpad

Um editor maior no rodapé para notas e briefings mais longos. Combine-o com a voz quando uma vez for demasiado longa ou demasiado precisa para dizer.

Fale com os seus agentes, ouça-os responder

Descarregue o AgentsRoom e abra o Voice Mode num agente em execução. Diga a sua vez, ouça a resposta e mantenha-se a par em mãos-livres enquanto o agente faz o trabalho. Uma conversa por voz bidirecional integrada no seu IDE de programação de IA.

GratisBaixar AgentsRoom

App complementar: acompanhe seus agentes em qualquer lugar

Use Claude, Codex, Antigravity CLI ou outro provedor de IA.

Instalar a extensão

Chrome Web Store

Envie bugs e pedidos direto para o seu backlog público.

Uma visão do AgentsRoom em ação.

Multi-projetos

Multi-provedor

Multi-agentes

Status ao vivo

Diff e commit

App mobile

Preview ao vivo

Equipes de agentes

Testes no navegador

Dev guiada por backlog

Biblioteca de prompts

Biblioteca de skills

Ver todas as funcionalidades

Pare de ler o terminal.Fale com o seu agente.