Dictado por voz : dicta tus prompts, tu agente programa

Deja de teclear tus prompts.
Díctalos.

El dictado por voz vive directamente en el composer del agente. Pulsa el micrófono, habla tu prompt, y el texto transcrito se inserta en el borrador en la posición del cursor. Voz a texto para tus agentes de programación, sin una app de dictado aparte que gestionar y sin copiar y pegar entre ventanas.

Teclear un prompt largo y preciso lleva minutos. Dictarlo lleva segundos. Más contexto para tu agente, menos idas y vueltas de aclaración, menos tokens desperdiciados. El valor pasó del código al prompt, y el dictado por voz es la forma más rápida de escribir uno bueno.

Descargar AgentsRoom Ver cómo funciona el dictado por voz

El dictado por voz en acción : pulsa el micro, habla el prompt, observa la forma de onda en directo, y la transcripción de voz a texto aterriza en el composer, lista para editar y enviar.

Este es el cambio al que responde el dictado por voz. Lo difícil al trabajar con un agente IA ya no es escribir el código, eso lo hace el agente. Lo difícil es escribir el prompt : describir lo que quieres, las restricciones, los casos límite, el archivo que tocar, el comportamiento que evitar. Un prompt preciso marca la diferencia entre acertar a la primera y diez idas y vueltas frustrantes. Y un prompt preciso es largo, lo que lo hace lento de teclear.

El dictado por voz elimina el impuesto de la escritura. Pulsas el botón de micrófono del composer, dices todo lo que habrías tecleado, a menudo más de lo que te habrías molestado en teclear, y la transcripción de voz a texto aparece en el borrador. Hablas a 150 palabras por minuto, no tecleas a 150 palabras por minuto. Dictar es simplemente más rápido, y un canal más rápido significa que le das más contexto a tu agente por cada tarea.

Esto no es un añadido superpuesto. El micrófono forma parte del composer de AgentsRoom, junto a la biblioteca de prompts y las herramientas de dibujo. La transcripción se inserta en tu cursor, así que puedes mezclar escritura y dictado en el mismo borrador. Nada se envía solo : el texto aterriza en el borrador, lo lees, corriges la palabra que el modelo entendió mal, y pulsas Enter cuando estás listo. Aquí el dictado por voz es una ayuda a la escritura, no un piloto automático.

Dictado por voz en el composer de AgentsRoom : un botón de micrófono graba la voz del usuario y la transcripción de voz a texto se inserta en el borrador del prompt del agente, con un visualizador de forma de onda en directo

El botón de micrófono está en la barra de herramientas del composer. Mientras grabas, una forma de onda en directo muestra el nivel de entrada, y luego el prompt transcrito aparece en el borrador.

Por qué dictar tus prompts en lugar de teclearlos

Velocidad. Hablas varias veces más rápido de lo que tecleas, y no pierdes el hilo buscando teclas. Un prompt de dos párrafos que tardaría tres minutos en teclearse es un dictado por voz de treinta segundos. A lo largo de un día entero dándole prompts a tus agentes, ese tiempo recuperado suma horas reales.

Precisión. Como dictar cuesta poco, dices más. Describes el caso límite que habrías saltado, el archivo que no habrías nombrado, el comportamiento que quieres evitar. Un prompt más rico es un prompt más preciso, y un prompt más preciso es justo lo que hace que un agente IA acierte la tarea a la primera.

Economía de tokens. Cada ida y vuelta de aclaración con un agente cuesta tokens : el agente pregunta, tú respondes, vuelve a leer el contexto. Un prompt dictado y preciso desde el principio aplasta esas idas y vueltas. Menos toma y daca significa menos tokens gastados para llegar al mismo resultado, lo que es un ahorro directo en tu factura de IA.

Manos libres y móvil. En el escritorio mantienes las manos libres mientras un agente trabaja y dictas el siguiente prompt en voz alta. En el teléfono, el dictado por voz es de lejos la forma más rápida de alimentar a un agente sin pelearte con un teclado móvil. Di la idea y aterriza en tu agente en el Mac.

Cómo funciona el dictado por voz

Pulsa el micro, habla, revisa, envía. Cuatro pasos, sin app aparte, sin copiar y pegar.

Pulsa el micrófono en el composer

Coloca el cursor en el composer del agente y pulsa el botón de micro de la barra de herramientas. La primera vez, macOS pide permiso de micrófono, AgentsRoom enruta esa solicitud al sistema para que la concedas una sola vez.

Habla tu prompt

El botón pasa a grabación : un estado pulsante con una forma de onda de voz en directo que muestra tu nivel de entrada en tiempo real, así sabes que el micro está captando audio de verdad. Di todo lo que quieres que tu agente sepa, en tu propio idioma.

Para, y transcribe

Pulsa de nuevo para parar. El audio se envía al modelo de transcripción que elegiste (GPT-4o Transcribe por defecto, GPT-4o mini Transcribe, u OpenAI Whisper). El botón muestra un estado de transcripción mientras corre el voz a texto.

La transcripción aterriza en tu cursor

El texto transcrito se inserta en el borrador en la posición del cursor, con un espacio de separación cuando hace falta. Tu posición de cursor se restaura, así que puedes seguir tecleando o dictar otro fragmento. Escritura y dictado se mezclan libremente en el mismo prompt.

Revisa y edita

Todavía no se ha enviado nada. El prompt sigue en el borrador. Léelo, corrige la rara palabra que el modelo entendió mal, añade una línea con el teclado, reordena una frase. Mantienes el control total de lo que tu agente recibe realmente.

Envía cuando estés listo

Pulsa Enter para enviar el prompt a tu agente, exactamente como un mensaje tecleado. Desde el punto de vista del agente solo es texto, así que el dictado por voz funciona igual con Claude Code, Codex, Antigravity CLI, OpenCode y Aider.

Prompts más rápidos, menos tokens

Por qué dictar un prompt mejor desde el principio sale más barato que teclear uno pobre e iterar.

Un prompt pobre es caro de una forma que no se ve en el reloj. El agente no tiene suficiente con qué trabajar, así que adivina, tú corriges, vuelve a leer todo el contexto, tú corriges otra vez. Cada uno de esos turnos son tokens de entrada, tokens de salida y lecturas de caché. Tres idas y vueltas para aclarar una feature pueden costar más que la feature misma.

El dictado por voz da la vuelta a la ecuación. Como hablar es rápido, cargas el contexto por adelantado : las restricciones, las rutas de archivos, el comportamiento que evitar, el ejemplo que tienes en mente. El agente acierta más cerca de la primera. Cambias treinta segundos de dictado por voz por dos o tres ciclos de aclaración evitados.

Y esto se acumula. Un día normal son decenas de prompts. Si el dictado por voz ahorra una ida y vuelta en buena parte de ellos, los tokens ahorrados se apilan a lo largo del día, del equipo, del mes. El token más barato es el que nunca tuviste que gastar para volver a explicarte.

Y además es simplemente menos fricción. Menos fricción significa que de verdad escribes el prompt más largo y mejor en lugar del one-liner perezoso que habrías tecleado porque escribir la versión completa parecía demasiado trabajo. El dictado por voz convierte el buen prompt en el prompt fácil.

Elige tu modelo de transcripción y tu idioma

El dictado por voz en el escritorio te deja elegir el modelo de voz a texto y el idioma hablado en los ajustes.

Modelos de transcripción (escritorio)

GPT-4o Transcribe (por defecto, mejor calidad multilingüe)
GPT-4o mini Transcribe (casi igual de preciso, más barato)
OpenAI Whisper, whisper-1 (tarifa simple por minuto, base multilingüe sólida)

Idiomas hablados

Detección automática (por defecto, el modelo descubre el idioma)
English, Français, Español, Deutsch, Italiano, Português
Русский, 中文, 日本語, 한국어
العربية, हिन्दी, Bahasa Indonesia, Polski, Türkçe, Tiếng Việt

La detección automática es la opción por defecto y resuelve la mayoría de los casos. Fuerza un idioma concreto cuando las grabaciones cortas se detectan mal, pero fuerza solo el idioma que estás hablando de verdad. Dieciséis idiomas más detección automática, así dictas con tus propias palabras y tu agente recibe texto limpio.

Qué hace realmente el dictado por voz por dentro

En el escritorio, el composer graba tu voz con la API del navegador MediaRecorder y envía el audio al backend de transcripción de AgentsRoom. La transcripción corre del lado del servidor en el modelo que elegiste, así que el trabajo pesado de voz a texto no depende de tu máquina, y el texto vuelve en claro, insertado en tu cursor. El micrófono, la grabación y la inserción forman parte del mismo composer en el que ya tecleas.

En móvil, el dictado por voz funciona distinto a propósito. La app compañera usa reconocimiento de voz on-device, así que el audio nunca sale de tu teléfono. El texto reconocido se retransmite luego al escritorio a través de la conexión cifrada de extremo a extremo de AgentsRoom y se deposita en la entrada del agente que tienes enfocado en el Mac. Mantén pulsado el botón de micro, habla, suelta, y el texto aparece en tu agente de escritorio.

Ambas superficies comparten una regla : el dictado por voz nunca envía por su cuenta. En escritorio la transcripción aterriza en el borrador para revisión. En móvil el texto se pega en la entrada del agente enfocado sin retorno de carro, así que sigues pulsando Enter tú mismo. El dictado es una forma de escribir el prompt, no una forma de dispararlo a ciegas.

La configuración es neutral respecto al provider. Los identificadores de modelo de transcripción apuntan al backend de voz a texto, no a tu agent CLI. Ya sea que tu agente sea Claude Code, Codex, Antigravity CLI, OpenCode o Aider, el texto dictado solo es texto en el composer, así que el dictado por voz se comporta igual en todos los providers que soporta AgentsRoom.

Dónde funciona el dictado por voz

Integrado en el composer de escritorio y en la app compañera móvil, en dieciséis idiomas.

Composer de escritorio

Un botón de micrófono en el composer del agente en macOS. Transcripción del lado del servidor con GPT-4o Transcribe, GPT-4o mini Transcribe o Whisper. Forma de onda de voz en directo mientras grabas, transcripción insertada en el cursor, libre de mezclar con la escritura. Elige tu modelo y tu idioma en los ajustes.

App compañera móvil

En la app compañera de iOS y Android, mantén pulsado el micro para dictar. El reconocimiento de voz corre on-device, así que el audio se queda en el teléfono, y el texto reconocido se retransmite cifrado de extremo a extremo al agente de escritorio enfocado. La forma más rápida de alimentar a un agente desde el bolsillo.

Multilingüe

Dieciséis idiomas hablados más detección automática : inglés, francés, español, alemán, italiano, portugués, ruso, chino, japonés, coreano, árabe, hindi, indonesio, polaco, turco y vietnamita. Dicta en tu idioma nativo, tu agente recibe texto transcrito limpio.

Teclear los prompts vs dictarlos

Mismo agente, misma tarea. Distinta velocidad, distinto contexto, distinta factura de tokens.

Teclear cada prompt

: Tecleas a una fracción de la velocidad a la que hablas, así que los prompts se quedan cortos.
: Los prompts cortos se saltan contexto, así que el agente adivina y tú lo corriges.
: Cada corrección es otra ida y vuelta, más tokens de entrada y de salida.
: Una app de dictado aparte o el dictado del sistema implica copiar y pegar entre ventanas.
: En el teléfono, el teclado móvil hace los prompts largos un dolor, así que casi no das prompts.

Dictar con el dictado por voz

: Hablas el prompt completo en segundos, así que dices más de forma natural.
: Más contexto por adelantado significa que el agente acierta la tarea más cerca de la primera.
: Menos idas y vueltas de aclaración significa menos tokens gastados para el mismo resultado.
: El micro está en el composer, la transcripción aterriza en el borrador, sin copiar y pegar.
: En el teléfono, mantén pulsado el micro y el texto aparece en tu agente de escritorio por el relay cifrado.

El dictado por voz es la forma más barata de hacer cada prompt más largo, más preciso y más rápido de escribir al mismo tiempo.

Cómo suena un prompt dictado

No tienes que escribir nada de esto. Lo dices en voz alta, el voz a texto lo convierte en el prompt de abajo, y pulsas Enter. Intenta decir un prompt así de detallado escribiéndolo y siente lo que tarda.

Dictado al micro

Añade un rate limiter al endpoint de login.
Usa una ventana deslizante de cinco intentos por minuto por IP.
Devuelve un 429 con una cabecera Retry-After cuando se alcance el límite.
Deja intacto el camino de éxito existente.
Añade un test unitario para cuando se alcanza el límite y otro para cuando se reinicia tras un minuto.
No toques el endpoint de registro.

Nada se envía automáticamente

El dictado por voz escribe en el borrador, nunca en el envío. Siempre lees la transcripción, la editas y pulsas Enter tú mismo. El dictado es un teclado más rápido, no un piloto automático.

On-device en móvil

En el teléfono, el reconocimiento de voz corre on-device : el audio nunca sale de tu dispositivo. El texto reconocido viaja a tu Mac por el relay cifrado de extremo a extremo de AgentsRoom.

Funciona con todos los agentes

El texto dictado solo es texto en el composer, así que el dictado por voz funciona igual con Claude Code, Codex, Antigravity CLI, OpenCode y Aider. Neutral respecto al provider por diseño.

FAQ

¿Qué es el dictado por voz en AgentsRoom ?

El dictado por voz es un botón de micrófono en el composer del agente que convierte tu voz en texto. Pulsas el micro, hablas tu prompt, y el texto transcrito se inserta en el borrador en tu cursor. Es reconocimiento de voz integrado para escribir prompts a tus agentes IA, sin una app de dictado aparte y sin copiar y pegar entre ventanas.

¿Por qué dictaría mis prompts en lugar de teclearlos ?

Velocidad, precisión y economía de tokens. Hablas varias veces más rápido de lo que tecleas, así que los prompts llevan segundos en vez de minutos. Como dictar cuesta poco, dices más de forma natural, lo que hace el prompt más preciso. Un prompt preciso significa menos idas y vueltas de aclaración con el agente, lo que significa menos tokens gastados para llegar al mismo resultado.

¿Qué modelos de transcripción puedo usar ?

En el escritorio eliges entre tres modelos de voz a texto en los ajustes : GPT-4o Transcribe (el predeterminado, mejor calidad multilingüe), GPT-4o mini Transcribe (casi igual de preciso y más barato), y OpenAI Whisper, el modelo whisper-1, con tarifa simple por minuto y una base multilingüe sólida.

¿Esto es solo OpenAI Whisper ?

Whisper es uno de los modelos que puedes elegir, integrado directamente en el composer en lugar de correr como una app aparte al lado. También puedes elegir GPT-4o Transcribe o GPT-4o mini Transcribe. El sentido del dictado por voz de AgentsRoom es que el dictado apunta directamente a la entrada del prompt de tu agente, así que no dictas en una ventana para copiar y pegar en otra.

¿Qué idiomas soporta el dictado por voz ?

Dieciséis idiomas hablados más detección automática : inglés, francés, español, alemán, italiano, portugués, ruso, chino, japonés, coreano, árabe, hindi, indonesio, polaco, turco y vietnamita. La detección automática es la opción por defecto. Puedes forzar un idioma concreto en los ajustes cuando las grabaciones cortas se detectan mal.

¿Mi voz se envía a un servidor ?

Depende de la superficie. En el escritorio, el audio se envía al backend de transcripción de AgentsRoom, que ejecuta el voz a texto en el modelo que elegiste y devuelve el texto. En móvil, el reconocimiento de voz corre on-device, así que el audio nunca sale de tu teléfono y solo el texto reconocido se retransmite al escritorio por la conexión cifrada de extremo a extremo.

¿El prompt se envía automáticamente después de dictar ?

No. El dictado por voz siempre deja el texto en el borrador, nunca en el envío. Lees la transcripción, corriges la rara palabra mal entendida, añades o reordenas con el teclado si quieres, y pulsas Enter cuando estás listo. Mantienes el control de exactamente lo que tu agente recibe.

¿Puedo mezclar escritura y dictado en el mismo prompt ?

Sí. La transcripción se inserta en tu cursor, no en lugar de todo el borrador. Así que puedes teclear la primera mitad, dictar un párrafo largo en medio, y luego teclear una línea final. El dictado por voz es una forma más rápida de llenar el composer, totalmente compatible con el teclado.

¿Puedo dictar desde mi teléfono a un agente en mi Mac ?

Sí. La app compañera móvil tiene un botón de micrófono : mantenlo pulsado, habla, suelta. La voz se reconoce on-device y el texto se retransmite cifrado de extremo a extremo al agente que tienes enfocado en el escritorio. Es la forma más rápida de enviar un prompt a tu agente del Mac sin usar un teclado móvil.

¿El dictado por voz funciona con Claude Code, Codex y Antigravity ?

Sí, con todos ellos, además de OpenCode y Aider. El texto dictado solo es texto en el composer, y la configuración de transcripción es neutral respecto al provider, así que el dictado por voz se comporta igual sin importar qué agent CLI estés ejecutando.

Combina bien con

Scratchpad

Un editor de prompt más grande en el pie. Dicta un brief largo, refínalo en el scratchpad, y luego envíalo a tu agente.

Biblioteca de prompts

Guarda los prompts que dictas como plantillas reutilizables. La voz escribe el primer borrador, la biblioteca guarda los buenos.

Sync móvil-escritorio

El enlace cifrado de extremo a extremo que lleva tu texto dictado del teléfono al agente enfocado en tu Mac.

Control remoto de agentes

Maneja tus agentes de escritorio desde el teléfono. El dictado es la forma más rápida de enviarles un prompt cuando estás lejos del teclado.

Multi-proveedor

Ejecuta Claude, Codex, Antigravity, OpenCode y Aider en paralelo. El dictado por voz funciona igual en cada uno de ellos.

Sketch

Dibuja y anota en el composer. Combina un prompt dictado con un boceto rápido para darle a tu agente palabras e imagen a la vez.

Habla con tus agentes, deja de teclear prompts

Descarga AgentsRoom y dicta tus prompts directamente en el composer. Más rápidos de escribir, más ricos en contexto, más ligeros en tokens. Dictado por voz integrado en tu IDE de agentes IA, en escritorio y en móvil.

GratisDescargar AgentsRoom

App complementaria: supervisa tus agentes en movimiento

Usa Claude, Codex, Antigravity CLI u otro proveedor de IA.

Instalar la extensión

Chrome Web Store

Envía bugs y peticiones directamente a tu backlog público.

Un vistazo a AgentsRoom en acción.

Multi-proyectos

Multi-proveedor

Multi-agentes

Estado en vivo

Diff y commit

App móvil

Vista previa

Equipos de agentes

Pruebas en navegador

Dev guiada por backlog

Biblioteca de prompts

Biblioteca de skills

Ver todas las funcionalidades

Deja de teclear tus prompts.Díctalos.

Por qué dictar tus prompts en lugar de teclearlos

Cómo funciona el dictado por voz

Pulsa el micrófono en el composer

Habla tu prompt

Para, y transcribe

La transcripción aterriza en tu cursor

Revisa y edita

Envía cuando estés listo

Prompts más rápidos, menos tokens

Elige tu modelo de transcripción y tu idioma

Modelos de transcripción (escritorio)

Idiomas hablados

Qué hace realmente el dictado por voz por dentro

Dónde funciona el dictado por voz

Composer de escritorio

App compañera móvil

Multilingüe

Teclear los prompts vs dictarlos

Teclear cada prompt

Dictar con el dictado por voz

Cómo suena un prompt dictado

FAQ

Combina bien con

Scratchpad

Biblioteca de prompts

Sync móvil-escritorio

Control remoto de agentes

Multi-proveedor

Sketch

Habla con tus agentes, deja de teclear prompts

Deja de teclear tus prompts.
Díctalos.