Deja de teclear tus prompts.
Díctalos.
El dictado por voz vive directamente en el composer del agente. Pulsa el micrófono, habla tu prompt, y el texto transcrito se inserta en el borrador en la posición del cursor. Voz a texto para tus agentes de programación, sin una app de dictado aparte que gestionar y sin copiar y pegar entre ventanas.
Teclear un prompt largo y preciso lleva minutos. Dictarlo lleva segundos. Más contexto para tu agente, menos idas y vueltas de aclaración, menos tokens desperdiciados. El valor pasó del código al prompt, y el dictado por voz es la forma más rápida de escribir uno bueno.
El dictado por voz en acción : pulsa el micro, habla el prompt, observa la forma de onda en directo, y la transcripción de voz a texto aterriza en el composer, lista para editar y enviar.
Este es el cambio al que responde el dictado por voz. Lo difícil al trabajar con un agente IA ya no es escribir el código, eso lo hace el agente. Lo difícil es escribir el prompt : describir lo que quieres, las restricciones, los casos límite, el archivo que tocar, el comportamiento que evitar. Un prompt preciso marca la diferencia entre acertar a la primera y diez idas y vueltas frustrantes. Y un prompt preciso es largo, lo que lo hace lento de teclear.
El dictado por voz elimina el impuesto de la escritura. Pulsas el botón de micrófono del composer, dices todo lo que habrías tecleado, a menudo más de lo que te habrías molestado en teclear, y la transcripción de voz a texto aparece en el borrador. Hablas a 150 palabras por minuto, no tecleas a 150 palabras por minuto. Dictar es simplemente más rápido, y un canal más rápido significa que le das más contexto a tu agente por cada tarea.
Esto no es un añadido superpuesto. El micrófono forma parte del composer de AgentsRoom, junto a la biblioteca de prompts y las herramientas de dibujo. La transcripción se inserta en tu cursor, así que puedes mezclar escritura y dictado en el mismo borrador. Nada se envía solo : el texto aterriza en el borrador, lo lees, corriges la palabra que el modelo entendió mal, y pulsas Enter cuando estás listo. Aquí el dictado por voz es una ayuda a la escritura, no un piloto automático.

El botón de micrófono está en la barra de herramientas del composer. Mientras grabas, una forma de onda en directo muestra el nivel de entrada, y luego el prompt transcrito aparece en el borrador.
Por qué dictar tus prompts en lugar de teclearlos
Velocidad. Hablas varias veces más rápido de lo que tecleas, y no pierdes el hilo buscando teclas. Un prompt de dos párrafos que tardaría tres minutos en teclearse es un dictado por voz de treinta segundos. A lo largo de un día entero dándole prompts a tus agentes, ese tiempo recuperado suma horas reales.
Precisión. Como dictar cuesta poco, dices más. Describes el caso límite que habrías saltado, el archivo que no habrías nombrado, el comportamiento que quieres evitar. Un prompt más rico es un prompt más preciso, y un prompt más preciso es justo lo que hace que un agente IA acierte la tarea a la primera.
Economía de tokens. Cada ida y vuelta de aclaración con un agente cuesta tokens : el agente pregunta, tú respondes, vuelve a leer el contexto. Un prompt dictado y preciso desde el principio aplasta esas idas y vueltas. Menos toma y daca significa menos tokens gastados para llegar al mismo resultado, lo que es un ahorro directo en tu factura de IA.
Manos libres y móvil. En el escritorio mantienes las manos libres mientras un agente trabaja y dictas el siguiente prompt en voz alta. En el teléfono, el dictado por voz es de lejos la forma más rápida de alimentar a un agente sin pelearte con un teclado móvil. Di la idea y aterriza en tu agente en el Mac.
Cómo funciona el dictado por voz
Pulsa el micro, habla, revisa, envía. Cuatro pasos, sin app aparte, sin copiar y pegar.
Pulsa el micrófono en el composer
Coloca el cursor en el composer del agente y pulsa el botón de micro de la barra de herramientas. La primera vez, macOS pide permiso de micrófono, AgentsRoom enruta esa solicitud al sistema para que la concedas una sola vez.
Habla tu prompt
El botón pasa a grabación : un estado pulsante con una forma de onda de voz en directo que muestra tu nivel de entrada en tiempo real, así sabes que el micro está captando audio de verdad. Di todo lo que quieres que tu agente sepa, en tu propio idioma.
Para, y transcribe
Pulsa de nuevo para parar. El audio se envía al modelo de transcripción que elegiste (GPT-4o Transcribe por defecto, GPT-4o mini Transcribe, u OpenAI Whisper). El botón muestra un estado de transcripción mientras corre el voz a texto.
La transcripción aterriza en tu cursor
El texto transcrito se inserta en el borrador en la posición del cursor, con un espacio de separación cuando hace falta. Tu posición de cursor se restaura, así que puedes seguir tecleando o dictar otro fragmento. Escritura y dictado se mezclan libremente en el mismo prompt.
Revisa y edita
Todavía no se ha enviado nada. El prompt sigue en el borrador. Léelo, corrige la rara palabra que el modelo entendió mal, añade una línea con el teclado, reordena una frase. Mantienes el control total de lo que tu agente recibe realmente.
Envía cuando estés listo
Pulsa Enter para enviar el prompt a tu agente, exactamente como un mensaje tecleado. Desde el punto de vista del agente solo es texto, así que el dictado por voz funciona igual con Claude Code, Codex, Gemini CLI, OpenCode y Aider.
Prompts más rápidos, menos tokens
Por qué dictar un prompt mejor desde el principio sale más barato que teclear uno pobre e iterar.
Un prompt pobre es caro de una forma que no se ve en el reloj. El agente no tiene suficiente con qué trabajar, así que adivina, tú corriges, vuelve a leer todo el contexto, tú corriges otra vez. Cada uno de esos turnos son tokens de entrada, tokens de salida y lecturas de caché. Tres idas y vueltas para aclarar una feature pueden costar más que la feature misma.
El dictado por voz da la vuelta a la ecuación. Como hablar es rápido, cargas el contexto por adelantado : las restricciones, las rutas de archivos, el comportamiento que evitar, el ejemplo que tienes en mente. El agente acierta más cerca de la primera. Cambias treinta segundos de dictado por voz por dos o tres ciclos de aclaración evitados.
Y esto se acumula. Un día normal son decenas de prompts. Si el dictado por voz ahorra una ida y vuelta en buena parte de ellos, los tokens ahorrados se apilan a lo largo del día, del equipo, del mes. El token más barato es el que nunca tuviste que gastar para volver a explicarte.
Y además es simplemente menos fricción. Menos fricción significa que de verdad escribes el prompt más largo y mejor en lugar del one-liner perezoso que habrías tecleado porque escribir la versión completa parecía demasiado trabajo. El dictado por voz convierte el buen prompt en el prompt fácil.
Elige tu modelo de transcripción y tu idioma
El dictado por voz en el escritorio te deja elegir el modelo de voz a texto y el idioma hablado en los ajustes.
Modelos de transcripción (escritorio)
- GPT-4o Transcribe (por defecto, mejor calidad multilingüe)
- GPT-4o mini Transcribe (casi igual de preciso, más barato)
- OpenAI Whisper, whisper-1 (tarifa simple por minuto, base multilingüe sólida)
Idiomas hablados
- Detección automática (por defecto, el modelo descubre el idioma)
- English, Français, Español, Deutsch, Italiano, Português
- Русский, 中文, 日本語, 한국어
- العربية, हिन्दी, Bahasa Indonesia, Polski, Türkçe, Tiếng Việt
La detección automática es la opción por defecto y resuelve la mayoría de los casos. Fuerza un idioma concreto cuando las grabaciones cortas se detectan mal, pero fuerza solo el idioma que estás hablando de verdad. Dieciséis idiomas más detección automática, así dictas con tus propias palabras y tu agente recibe texto limpio.
Qué hace realmente el dictado por voz por dentro
En el escritorio, el composer graba tu voz con la API del navegador MediaRecorder y envía el audio al backend de transcripción de AgentsRoom. La transcripción corre del lado del servidor en el modelo que elegiste, así que el trabajo pesado de voz a texto no depende de tu máquina, y el texto vuelve en claro, insertado en tu cursor. El micrófono, la grabación y la inserción forman parte del mismo composer en el que ya tecleas.
En móvil, el dictado por voz funciona distinto a propósito. La app compañera usa reconocimiento de voz on-device, así que el audio nunca sale de tu teléfono. El texto reconocido se retransmite luego al escritorio a través de la conexión cifrada de extremo a extremo de AgentsRoom y se deposita en la entrada del agente que tienes enfocado en el Mac. Mantén pulsado el botón de micro, habla, suelta, y el texto aparece en tu agente de escritorio.
Ambas superficies comparten una regla : el dictado por voz nunca envía por su cuenta. En escritorio la transcripción aterriza en el borrador para revisión. En móvil el texto se pega en la entrada del agente enfocado sin retorno de carro, así que sigues pulsando Enter tú mismo. El dictado es una forma de escribir el prompt, no una forma de dispararlo a ciegas.
La configuración es neutral respecto al provider. Los identificadores de modelo de transcripción apuntan al backend de voz a texto, no a tu agent CLI. Ya sea que tu agente sea Claude Code, Codex, Gemini CLI, OpenCode o Aider, el texto dictado solo es texto en el composer, así que el dictado por voz se comporta igual en todos los providers que soporta AgentsRoom.
Dónde funciona el dictado por voz
Integrado en el composer de escritorio y en la app compañera móvil, en dieciséis idiomas.
Composer de escritorio
Un botón de micrófono en el composer del agente en macOS. Transcripción del lado del servidor con GPT-4o Transcribe, GPT-4o mini Transcribe o Whisper. Forma de onda de voz en directo mientras grabas, transcripción insertada en el cursor, libre de mezclar con la escritura. Elige tu modelo y tu idioma en los ajustes.
App compañera móvil
En la app compañera de iOS y Android, mantén pulsado el micro para dictar. El reconocimiento de voz corre on-device, así que el audio se queda en el teléfono, y el texto reconocido se retransmite cifrado de extremo a extremo al agente de escritorio enfocado. La forma más rápida de alimentar a un agente desde el bolsillo.
Multilingüe
Dieciséis idiomas hablados más detección automática : inglés, francés, español, alemán, italiano, portugués, ruso, chino, japonés, coreano, árabe, hindi, indonesio, polaco, turco y vietnamita. Dicta en tu idioma nativo, tu agente recibe texto transcrito limpio.
Teclear los prompts vs dictarlos
Mismo agente, misma tarea. Distinta velocidad, distinto contexto, distinta factura de tokens.
Teclear cada prompt
- : Tecleas a una fracción de la velocidad a la que hablas, así que los prompts se quedan cortos.
- : Los prompts cortos se saltan contexto, así que el agente adivina y tú lo corriges.
- : Cada corrección es otra ida y vuelta, más tokens de entrada y de salida.
- : Una app de dictado aparte o el dictado del sistema implica copiar y pegar entre ventanas.
- : En el teléfono, el teclado móvil hace los prompts largos un dolor, así que casi no das prompts.
Dictar con el dictado por voz
- : Hablas el prompt completo en segundos, así que dices más de forma natural.
- : Más contexto por adelantado significa que el agente acierta la tarea más cerca de la primera.
- : Menos idas y vueltas de aclaración significa menos tokens gastados para el mismo resultado.
- : El micro está en el composer, la transcripción aterriza en el borrador, sin copiar y pegar.
- : En el teléfono, mantén pulsado el micro y el texto aparece en tu agente de escritorio por el relay cifrado.
El dictado por voz es la forma más barata de hacer cada prompt más largo, más preciso y más rápido de escribir al mismo tiempo.
Cómo suena un prompt dictado
No tienes que escribir nada de esto. Lo dices en voz alta, el voz a texto lo convierte en el prompt de abajo, y pulsas Enter. Intenta decir un prompt así de detallado escribiéndolo y siente lo que tarda.
Dictado al micro
Añade un rate limiter al endpoint de login.
Usa una ventana deslizante de cinco intentos por minuto por IP.
Devuelve un 429 con una cabecera Retry-After cuando se alcance el límite.
Deja intacto el camino de éxito existente.
Añade un test unitario para cuando se alcanza el límite y otro para cuando se reinicia tras un minuto.
No toques el endpoint de registro.FAQ
¿Qué es el dictado por voz en AgentsRoom ?
El dictado por voz es un botón de micrófono en el composer del agente que convierte tu voz en texto. Pulsas el micro, hablas tu prompt, y el texto transcrito se inserta en el borrador en tu cursor. Es reconocimiento de voz integrado para escribir prompts a tus agentes IA, sin una app de dictado aparte y sin copiar y pegar entre ventanas.
¿Por qué dictaría mis prompts en lugar de teclearlos ?
Velocidad, precisión y economía de tokens. Hablas varias veces más rápido de lo que tecleas, así que los prompts llevan segundos en vez de minutos. Como dictar cuesta poco, dices más de forma natural, lo que hace el prompt más preciso. Un prompt preciso significa menos idas y vueltas de aclaración con el agente, lo que significa menos tokens gastados para llegar al mismo resultado.
¿Qué modelos de transcripción puedo usar ?
En el escritorio eliges entre tres modelos de voz a texto en los ajustes : GPT-4o Transcribe (el predeterminado, mejor calidad multilingüe), GPT-4o mini Transcribe (casi igual de preciso y más barato), y OpenAI Whisper, el modelo whisper-1, con tarifa simple por minuto y una base multilingüe sólida.
¿Esto es solo OpenAI Whisper ?
Whisper es uno de los modelos que puedes elegir, integrado directamente en el composer en lugar de correr como una app aparte al lado. También puedes elegir GPT-4o Transcribe o GPT-4o mini Transcribe. El sentido del dictado por voz de AgentsRoom es que el dictado apunta directamente a la entrada del prompt de tu agente, así que no dictas en una ventana para copiar y pegar en otra.
¿Qué idiomas soporta el dictado por voz ?
Dieciséis idiomas hablados más detección automática : inglés, francés, español, alemán, italiano, portugués, ruso, chino, japonés, coreano, árabe, hindi, indonesio, polaco, turco y vietnamita. La detección automática es la opción por defecto. Puedes forzar un idioma concreto en los ajustes cuando las grabaciones cortas se detectan mal.
¿Mi voz se envía a un servidor ?
Depende de la superficie. En el escritorio, el audio se envía al backend de transcripción de AgentsRoom, que ejecuta el voz a texto en el modelo que elegiste y devuelve el texto. En móvil, el reconocimiento de voz corre on-device, así que el audio nunca sale de tu teléfono y solo el texto reconocido se retransmite al escritorio por la conexión cifrada de extremo a extremo.
¿El prompt se envía automáticamente después de dictar ?
No. El dictado por voz siempre deja el texto en el borrador, nunca en el envío. Lees la transcripción, corriges la rara palabra mal entendida, añades o reordenas con el teclado si quieres, y pulsas Enter cuando estás listo. Mantienes el control de exactamente lo que tu agente recibe.
¿Puedo mezclar escritura y dictado en el mismo prompt ?
Sí. La transcripción se inserta en tu cursor, no en lugar de todo el borrador. Así que puedes teclear la primera mitad, dictar un párrafo largo en medio, y luego teclear una línea final. El dictado por voz es una forma más rápida de llenar el composer, totalmente compatible con el teclado.
¿Puedo dictar desde mi teléfono a un agente en mi Mac ?
Sí. La app compañera móvil tiene un botón de micrófono : mantenlo pulsado, habla, suelta. La voz se reconoce on-device y el texto se retransmite cifrado de extremo a extremo al agente que tienes enfocado en el escritorio. Es la forma más rápida de enviar un prompt a tu agente del Mac sin usar un teclado móvil.
¿El dictado por voz funciona con Claude Code, Codex y Gemini ?
Sí, con todos ellos, además de OpenCode y Aider. El texto dictado solo es texto en el composer, y la configuración de transcripción es neutral respecto al provider, así que el dictado por voz se comporta igual sin importar qué agent CLI estés ejecutando.
Combina bien con
Scratchpad
Un editor de prompt más grande en el pie. Dicta un brief largo, refínalo en el scratchpad, y luego envíalo a tu agente.
Biblioteca de prompts
Guarda los prompts que dictas como plantillas reutilizables. La voz escribe el primer borrador, la biblioteca guarda los buenos.
Sync móvil-escritorio
El enlace cifrado de extremo a extremo que lleva tu texto dictado del teléfono al agente enfocado en tu Mac.
Control remoto de agentes
Maneja tus agentes de escritorio desde el teléfono. El dictado es la forma más rápida de enviarles un prompt cuando estás lejos del teclado.
Multi-proveedor
Ejecuta Claude, Codex, Gemini, OpenCode y Aider en paralelo. El dictado por voz funciona igual en cada uno de ellos.
Sketch
Dibuja y anota en el composer. Combina un prompt dictado con un boceto rápido para darle a tu agente palabras e imagen a la vez.
Habla con tus agentes, deja de teclear prompts
Descarga AgentsRoom y dicta tus prompts directamente en el composer. Más rápidos de escribir, más ricos en contexto, más ligeros en tokens. Dictado por voz integrado en tu IDE de agentes IA, en escritorio y en móvil.
App complementaria: supervisa tus agentes en movimiento
Usa Claude, Codex, Gemini CLI u otro proveedor de IA.
Envía bugs y peticiones directamente a tu backlog público.
Un vistazo a AgentsRoom en acción.