Ditado por voz : dite os seus prompts, o agente codifica

Pare de escrever prompts.
Dite-os.

O ditado por voz vive diretamente no composer do agente. Clique no microfone, dite o seu prompt, e o texto transcrito cai no rascunho na posição do cursor. Voz para texto para os seus agentes de código, sem app de ditado separada para gerir e sem copiar-colar entre janelas.

Escrever um prompt longo e preciso leva minutos. Ditar o mesmo prompt leva segundos. Mais contexto para o seu agente, menos idas e voltas de clarificação, menos tokens desperdiçados. O valor passou do código para o prompt, e o ditado por voz é a forma mais rápida de escrever um bom prompt.

O ditado por voz em ação : clique no micro, dite o prompt, observe a forma de onda ao vivo, e a transcrição voz para texto cai no composer, pronta a editar e enviar.

Eis a viragem a que o ditado por voz responde. A parte difícil de trabalhar com um agente de IA já não é escrever o código, o agente faz isso. A parte difícil é escrever o prompt : descrever o que quer, as restrições, os casos limite, o ficheiro a tocar, o comportamento a evitar. Um prompt preciso é a diferença entre acertar à primeira e dez idas e voltas frustrantes. E um prompt preciso é longo, o que o torna lento de escrever.

O ditado por voz elimina a taxa da escrita. Clica no botão de microfone do composer, diz tudo o que teria escrito, muitas vezes mais do que se teria dado ao trabalho de escrever, e a transcrição voz para texto aparece no rascunho. Fala a 150 palavras por minuto, não escreve a 150 palavras por minuto. Ditar é simplesmente mais rápido, e um canal mais rápido significa mais contexto por tarefa para o seu agente.

Isto não é um acessório colado por cima. O microfone faz parte do composer do AgentsRoom, ao lado da biblioteca de prompts e das ferramentas de esboço. A transcrição é inserida no cursor, por isso pode misturar escrita e ditado no mesmo rascunho. Nada é enviado automaticamente : o texto cai no rascunho, lê-o, corrige a única palavra que o modelo percebeu mal, e carrega em Enter quando estiver pronto. Aqui, o ditado por voz é um auxílio à escrita, não um piloto automático.

Ditado por voz no composer do AgentsRoom : um botão de microfone grava a voz do utilizador e a transcrição voz para texto é inserida no rascunho do prompt do agente, com um visualizador de forma de onda de voz ao vivo

O botão de microfone fica na barra de ferramentas do composer. Durante a gravação, uma forma de onda de voz ao vivo mostra o nível de entrada, depois o prompt transcrito aparece no rascunho.

Porquê ditar os seus prompts em vez de os escrever

Velocidade. Fala várias vezes mais depressa do que escreve, e não perde o fio do raciocínio à procura das teclas. Um prompt de dois parágrafos que levaria três minutos a escrever é um ditado por voz de trinta segundos. Ao longo de um dia inteiro a dar prompts aos seus agentes, esse tempo soma-se em horas recuperadas.

Precisão. Como ditar quase não custa, diz mais. Descreve o caso limite que teria saltado, o ficheiro que não teria nomeado, o comportamento que quer evitar. Um prompt mais rico é um prompt mais preciso, e um prompt mais preciso é exatamente o que faz um agente de IA acertar a tarefa à primeira.

Economia de tokens. Cada ida e volta de clarificação com um agente custa tokens : o agente pergunta, você responde, ele relê o contexto. Um prompt ditado preciso logo de início esmaga essas idas e voltas. Menos vaivém significa menos tokens gastos para chegar ao mesmo resultado, ou seja, uma poupança direta na sua fatura de IA.

Mãos livres e mobile. No desktop mantém as mãos livres enquanto um agente trabalha e dita o próximo prompt em voz alta. No telemóvel, o ditado por voz é de longe a forma mais rápida de alimentar um agente sem lutar com um teclado mobile. Diga a ideia, ela cai no seu agente no Mac.

Como funciona o ditado por voz

Clique no micro, fale, reveja, envie. Quatro passos, sem app separada, sem copiar-colar.

01

Clique no microfone no composer

Coloque o cursor no composer do agente e clique no botão de microfone na barra de ferramentas. Na primeira vez, o macOS pede autorização do microfone, e o AgentsRoom encaminha esse pedido para o sistema para que o conceda uma única vez.

02

Dite o seu prompt

O botão muda para gravação : um estado pulsante com uma forma de onda de voz ao vivo que mostra o seu nível de entrada em tempo real, para saber que o micro está mesmo a captar áudio. Diga tudo o que quer que o seu agente saiba, no seu idioma.

03

Pare, e ele transcreve

Clique de novo para parar. O áudio é enviado para o modelo de transcrição que escolheu (GPT-4o Transcribe por defeito, GPT-4o mini Transcribe, ou OpenAI Whisper). O botão mostra um estado de transcrição enquanto a voz para texto decorre.

04

A transcrição cai no seu cursor

O texto transcrito é inserido no rascunho na posição do cursor, com um espaço de separação quando necessário. A posição do cursor é restaurada, por isso pode continuar a escrever ou ditar outro bloco. Escrita e ditado misturam-se livremente no mesmo prompt.

05

Reveja e edite

Nada foi enviado ainda. O prompt fica no rascunho. Leia-o, corrija a rara palavra que o modelo percebeu mal, acrescente uma linha pelo teclado, reordene uma frase. Mantém o controlo total daquilo que o seu agente realmente recebe.

06

Envie quando estiver pronto

Carregue em Enter para enviar o prompt ao seu agente, exatamente como uma mensagem escrita. Do ponto de vista do agente é apenas texto, por isso o ditado por voz funciona da mesma forma com Claude Code, Codex, Gemini CLI, OpenCode e Aider.

Prompts mais rápidos, menos tokens

Porque ditar um prompt melhor logo de início é mais barato do que escrever um prompt magro e iterar.

Um prompt magro é caro de uma forma que não aparece no relógio. O agente não tem por onde se guiar, por isso adivinha, você corrige, ele relê todo o contexto, você corrige de novo. Cada uma dessas voltas são tokens de entrada, tokens de saída e leituras de cache. Três idas e voltas para clarificar uma funcionalidade podem custar mais do que a própria funcionalidade.

O ditado por voz inverte a equação. Como falar é rápido, carrega o contexto à frente : as restrições, os caminhos de ficheiros, o comportamento a evitar, o exemplo que tem em mente. O agente acerta mais perto da primeira tentativa. Troca trinta segundos de ditado por dois ou três ciclos de clarificação evitados.

E isto acumula-se. Um dia normal são dezenas de prompts. Se o ditado por voz poupar uma ida e volta numa boa parte deles, os tokens poupados empilham-se ao longo do dia, da equipa, do mês. O token mais barato é aquele que nunca teve de gastar a reexplicar-se.

É também simplesmente menos fricção. Menos fricção significa que escreve mesmo o prompt mais longo e melhor em vez do one-liner preguiçoso que teria escrito porque escrever a versão completa parecia trabalho a mais. O ditado por voz torna o bom prompt no prompt fácil.

Escolha o seu modelo de transcrição e o idioma

No desktop, o ditado por voz deixa-o escolher o modelo de voz para texto e o idioma falado nas definições.

Modelos de transcrição (desktop)

  • GPT-4o Transcribe (por defeito, melhor qualidade multilingue)
  • GPT-4o mini Transcribe (quase tão preciso, mais barato)
  • OpenAI Whisper, whisper-1 (preço simples ao minuto, base multilingue sólida)

Idiomas falados

  • Deteção automática (por defeito, o modelo descobre o idioma)
  • English, Français, Español, Deutsch, Italiano, Português
  • Русский, 中文, 日本語, 한국어
  • العربية, हिन्दी, Bahasa Indonesia, Polski, Türkçe, Tiếng Việt

A deteção automática é o padrão e trata da maioria dos casos. Force um idioma específico quando gravações curtas são mal detetadas, mas force apenas o idioma que está mesmo a falar. Dezasseis idiomas mais a deteção automática, para que dite nas suas próprias palavras e o seu agente receba texto limpo.

O que o ditado por voz faz de facto por baixo do capô

No desktop, o composer grava a sua voz com a API de navegador MediaRecorder e envia o áudio para o backend de transcrição do AgentsRoom. A transcrição corre do lado do servidor no modelo que escolheu, por isso o grosso do trabalho de voz para texto não depende da sua máquina, e a transcrição volta como texto simples inserido no cursor. O microfone, a gravação e a inserção fazem todos parte do mesmo composer onde já escreve.

No mobile, o ditado por voz funciona de outra forma, de propósito. A app companion usa reconhecimento de voz on-device, por isso o áudio nunca sai do seu telemóvel. O texto reconhecido é depois retransmitido para o desktop através da ligação encriptada de ponta a ponta do AgentsRoom e largado no input do agente que tem em foco no Mac. Mantenha o botão de micro, fale, largue, e o texto aparece no seu agente desktop.

Ambas as superfícies partilham uma regra : o ditado por voz nunca envia por si só. No desktop, a transcrição cai no rascunho para revisão. No mobile, o texto é colado no input do agente em foco sem retorno de linha, por isso é você que carrega em Enter. Ditar é uma forma de escrever o prompt, não de o disparar às cegas.

A configuração é neutra em relação ao provider. Os ids dos modelos de transcrição mapeiam o backend de voz para texto, não o CLI do seu agente. Quer o seu agente seja Claude Code, Codex, Gemini CLI, OpenCode ou Aider, o texto ditado é apenas texto no composer, por isso o ditado por voz comporta-se de forma idêntica em todos os providers que o AgentsRoom suporta.

Onde funciona o ditado por voz

Integrado no composer desktop e na app companion mobile, em dezasseis idiomas.

Composer desktop

Um botão de microfone no composer do agente em macOS. Transcrição do lado do servidor em GPT-4o Transcribe, GPT-4o mini Transcribe ou Whisper. Forma de onda de voz ao vivo durante a gravação, transcrição inserida no cursor, livre para misturar com a escrita. Escolha o modelo e o idioma nas definições.

App companion mobile

Na app companion iOS e Android, mantenha o micro para ditar. O reconhecimento de voz corre on-device, por isso o áudio fica no telemóvel, e o texto reconhecido é retransmitido encriptado de ponta a ponta para o agente desktop em foco. A forma mais rápida de alimentar um agente a partir do bolso.

Multilingue

Dezasseis idiomas falados mais a deteção automática : inglês, francês, espanhol, alemão, italiano, português, russo, chinês, japonês, coreano, árabe, hindi, indonésio, polaco, turco e vietnamita. Dite no seu idioma nativo, o seu agente recebe texto transcrito e limpo.

Escrever prompts vs ditá-los

Mesmo agente, mesma tarefa. Velocidade diferente, contexto diferente, fatura de tokens diferente.

Escrever cada prompt

  • : Escreve a uma fração da velocidade a que fala, por isso os prompts ficam curtos.
  • : Prompts curtos saltam contexto, por isso o agente adivinha e você corrige-o.
  • : Cada correção é mais uma ida e volta, mais tokens de entrada e de saída.
  • : Uma app de ditado separada ou o ditado do sistema obriga a copiar-colar entre janelas.
  • : No telemóvel, o teclado mobile torna os prompts longos penosos, por isso quase nem dá prompts.

Ditar com o ditado por voz

  • : Dita o prompt completo em segundos, por isso diz naturalmente mais.
  • : Mais contexto à frente significa que o agente acerta a tarefa mais perto da primeira tentativa.
  • : Menos idas e voltas de clarificação significa menos tokens gastos no mesmo resultado.
  • : O micro está no composer, a transcrição cai no rascunho, sem copiar-colar.
  • : No telemóvel, mantenha o micro e o texto aparece no seu agente desktop através do relay encriptado.

O ditado por voz é a forma mais barata de tornar cada prompt mais longo, mais preciso e mais rápido de escrever, ao mesmo tempo.

Como soa um prompt ditado

Não tem de escrever nada disto. Diz em voz alta, a voz para texto transforma-o no prompt abaixo, e carrega em Enter. Experimente escrever um prompt tão detalhado como este e sinta quanto tempo demora.

Ditado ao micro

Adiciona um rate limiter ao endpoint de login.
Usa uma janela deslizante de cinco tentativas por minuto por IP.
Devolve um 429 com um header Retry-After quando o limite for atingido.
Mantém o caminho de sucesso existente intacto.
Adiciona um teste unitário para o limite ser atingido e outro para a reposição passado um minuto.
Não toques no endpoint de inscrição.
Nada enviado automaticamente
O ditado por voz escreve no rascunho, nunca no envio. Você lê sempre a transcrição, edita-a e carrega você mesmo em Enter. Ditar é um teclado mais rápido, não um piloto automático.
On-device no mobile
No telemóvel, o reconhecimento de voz corre on-device : o áudio nunca sai do seu dispositivo. O texto reconhecido viaja até ao seu Mac através do relay encriptado de ponta a ponta do AgentsRoom.
Funciona com todos os agentes
O texto ditado é apenas texto no composer, por isso o ditado por voz funciona da mesma forma com Claude Code, Codex, Gemini CLI, OpenCode e Aider. Neutro em relação ao provider, por conceção.

FAQ

O que é o ditado por voz no AgentsRoom ?

O ditado por voz é um botão de microfone no composer do agente que transforma a sua voz em texto. Clica no micro, dita o seu prompt, e o texto transcrito é inserido no rascunho na posição do cursor. É voz para texto integrada para escrever prompts aos seus agentes de IA, sem app de ditado separada e sem copiar-colar entre janelas.

Porque haveria de ditar prompts em vez de os escrever ?

Velocidade, precisão e economia de tokens. Fala várias vezes mais depressa do que escreve, por isso os prompts levam segundos em vez de minutos. Como ditar quase não custa, diz naturalmente mais, o que torna o prompt mais preciso. Um prompt preciso significa menos idas e voltas de clarificação com o agente, o que significa menos tokens gastos para chegar ao mesmo resultado.

Que modelos de transcrição posso usar ?

No desktop escolhe entre três modelos de voz para texto nas definições : GPT-4o Transcribe (o padrão, melhor qualidade multilingue), GPT-4o mini Transcribe (quase tão preciso e mais barato), e OpenAI Whisper, o modelo whisper-1 com preço simples ao minuto e uma base multilingue sólida.

Isto é só o OpenAI Whisper ?

O Whisper é um dos modelos que pode escolher, integrado diretamente no composer em vez de correr como uma app separada ao lado. Também pode escolher GPT-4o Transcribe ou GPT-4o mini Transcribe. O objetivo do ditado por voz do AgentsRoom é que o ditado vai direto para o input do prompt do seu agente, por isso não dita numa janela para copiar-colar noutra.

Que idiomas suporta o ditado por voz ?

Dezasseis idiomas falados mais a deteção automática : inglês, francês, espanhol, alemão, italiano, português, russo, chinês, japonês, coreano, árabe, hindi, indonésio, polaco, turco e vietnamita. A deteção automática é o padrão. Pode forçar um idioma específico nas definições quando gravações curtas são mal detetadas.

A minha voz é enviada para um servidor ?

Depende da superfície. No desktop, o áudio é enviado para o backend de transcrição do AgentsRoom, que corre a voz para texto no modelo que escolheu e devolve o texto. No mobile, o reconhecimento de voz corre on-device, por isso o áudio nunca sai do seu telemóvel e apenas o texto reconhecido é retransmitido para o desktop através da ligação encriptada de ponta a ponta.

O prompt é enviado automaticamente depois de eu ditar ?

Não. O ditado por voz cai sempre com o texto no rascunho, nunca no envio. Você lê a transcrição, corrige a rara palavra mal percebida, acrescenta ou reordena pelo teclado se quiser, e carrega em Enter quando estiver pronto. Mantém o controlo daquilo que o seu agente recebe exatamente.

Posso misturar escrita e ditado no mesmo prompt ?

Sim. A transcrição é inserida na posição do cursor, não no lugar de todo o rascunho. Por isso pode escrever a primeira metade, ditar um longo parágrafo no meio, depois escrever uma linha final. O ditado por voz é uma forma mais rápida de preencher o composer, totalmente compatível com o teclado.

Posso ditar do meu telemóvel para um agente no meu Mac ?

Sim. A app companion mobile tem um botão de microfone : mantenha-o, fale, largue. A voz é reconhecida on-device e o texto é retransmitido encriptado de ponta a ponta para o agente que tem em foco no desktop. É a forma mais rápida de enviar um prompt ao seu agente Mac sem usar um teclado mobile.

O ditado por voz funciona com Claude Code, Codex e Gemini ?

Sim, com todos eles, mais OpenCode e Aider. O texto ditado é apenas texto no composer, e a configuração de transcrição é neutra em relação ao provider, por isso o ditado por voz comporta-se de forma idêntica seja qual for o CLI de agente que estiver a correr.

Combina bem com

Fale com os seus agentes, pare de escrever prompts

Descarregue o AgentsRoom e dite os seus prompts diretamente no composer. Mais rápidos de escrever, mais ricos em contexto, mais leves em tokens. Ditado por voz integrado no seu IDE de agentes de IA, no desktop e no mobile.

GratisBaixar AgentsRoom

App complementar: acompanhe seus agentes em qualquer lugar

Use Claude, Codex, Gemini CLI ou outro provedor de IA.

Instalar a extensão
Chrome Web Store

Envie bugs e pedidos direto para o seu backlog público.

Uma visão do AgentsRoom em ação.

Multi-projetos
Multi-provedor
Multi-agentes
Status ao vivo
Diff e commit
App mobile
Preview ao vivo
Equipes de agentes
Testes no navegador
Dev guiada por backlog
Biblioteca de prompts
Biblioteca de skills
Ver todas as funcionalidades