Voice Mode : habla con tu agente, él te responde

Deja de leer el terminal.
Habla con tu agente.

Voice Mode es una conversación de voz bidireccional con un agente de programación IA en marcha. Toca una vez, di tu turno, y el agente responde en voz alta con una voz natural. Sin teclear un prompt, sin desplazarte por un muro de salida del terminal para enterarte de qué ha pasado.

Activa el modo manos libres y sigue escuchando entre respuestas, así puedes pasear por la sala, vigilar el build o tomarte el café mientras repasas el plan. Pregunta por dónde va el refactor, te lo dice. Di lanza los tests e infórmame, los lanza y luego te dice el resultado.

Voice Mode de AgentsRoom : una conversación de voz bidireccional con un agente de programación IA, un estado de escucha con indicador en directo, un interruptor de manos libres, un pitido, una voz de respuesta seleccionable y detección automática del idioma

Voice Mode en acción : el agente escucha, el modo manos libres está activado, la voz de respuesta está elegida, y el agente responde en voz alta entre tus turnos.

Este es el cambio al que responde Voice Mode. Tu agente trabaja durante más tiempo y hace más cosas por su cuenta : edita archivos, lanza comandos, escribe tests, repara lo que rompió. El cuello de botella ya no es escribir código, es seguir en el bucle mientras el agente trabaja. Leer línea tras línea de salida del terminal, o teclear otro prompt para preguntar qué pasa, te devuelve al teclado en cada turno.

Voice Mode convierte ese bucle en una conversación. Dices tu turno en voz alta, el agente responde en voz alta. Haces una pregunta, das una corrección, apruebas un plan, todo por voz, y escuchas la respuesta pronunciada con una voz natural en lugar de descifrarla en pantalla. Es la diferencia entre supervisar un proceso y hablar con un compañero de equipo.

Esto no es lo mismo que el dictado por voz. El dictado es de un solo sentido : hablas, transcribe tus palabras en el composer, y aun así lees la respuesta del agente. Voice Mode es bidireccional : voz de entrada, voz de salida, un ida y vuelta en directo. El dictado te ayuda a escribir un prompt más rápido. Voice Mode te permite saltarte el teclado y la pantalla por completo mientras mantienes a un agente en marcha.

Por qué hablar con tu agente en lugar de teclear y leer

Sigue en el bucle, con manos libres. Un agente capaz puede trabajar varios minutos con una sola instrucción. Con Voice Mode en manos libres, sigues en contacto todo el tiempo sin estar sentado al teclado. Pide un estado, dirige el siguiente paso, confirma una decisión, todo mientras estás de pie en la pizarra o mirando la app recargarse.

Un verdadero ida y vuelta. Teclear un prompt, esperar, leer la salida, volver a teclear es un bucle entrecortado. Decir tu turno y escuchar la respuesta es una conversación. Es más rápido para turnos cortos (un sí rápido, una pequeña corrección, una pregunta más) y mucho menos agotador que leer muros de texto del terminal en cada actualización.

Ojos libres, pantalla libre. Escuchar la respuesta del agente significa que no tienes que mirar el terminal para saber qué hizo. Echa un vistazo al build, a tus tests, a tu diseño, o a nada en absoluto, y deja que la actualización hablada te diga por dónde van las cosas. El agente narra, tú mantienes los ojos donde está el trabajo de verdad.

Con los mismos créditos de voz. Voice Mode usa el backend de voz de AgentsRoom, voz a texto a la entrada y texto a voz a la salida, tomando del mismo saldo de créditos de voz que el dictado. Un solo saldo alimenta tanto el dictado de prompts como las conversaciones de voz completas, así que no hay nada extra que configurar.

Cómo funciona Voice Mode

Ábrelo sobre un agente en marcha, habla, escucha, repite. Un bucle hablado en lugar de teclear y leer.

01

Abre Voice Mode sobre un agente en marcha

Voice Mode se lanza para un agente que ya está en marcha en su terminal, desde el composer de ese agente. Necesita una sesión activa porque la conversación es con ese agente concreto, en su contexto actual, no un chat en blanco.

02

Toca para hablar

Toca una vez y di tu turno : una pregunta, una instrucción, una corrección. El estado pasa a escucha con un indicador en directo, para que veas que el micrófono está captando. Elige manos libres para que siga escuchando entre turnos, o toca para hablar para tomar un turno cada vez.

03

Transcribe y lo envía al agente

Cuando terminas, tu voz se transcribe y se envía al agente en marcha como tu mensaje, exactamente como si lo hubieras tecleado. El estado pasa por transcripción y envío, para que siempre sepas dónde está tu turno en la cadena.

04

El agente trabaja

El agente procesa tu turno en su propia sesión : puede leer archivos, lanzar comandos, editar código, ejecutar tests, todo lo que tu mensaje haya pedido. Voice Mode muestra un estado de trabajo con el nombre del agente mientras hace la tarea, igual que un turno normal en el terminal.

05

Escucha la respuesta en voz alta

Cuando el agente responde, su respuesta se lee en voz alta con la voz que elegiste. Escuchas el estado, el resultado, la siguiente pregunta, sin leer el terminal. Un pitido opcional marca la frontera entre turnos para que sepas cuándo te toca de nuevo.

06

Toma tu siguiente turno

En manos libres, ya está escuchando otra vez, así que solo sigues hablando. En toca para hablar, tocas para arrancar tu siguiente turno. La conversación continúa el tiempo que quieras, luego cierras Voice Mode y el agente está justo donde lo dejaste en su terminal.

Manos libres, para seguir en el bucle sin el teclado

El sentido de Voice Mode no es la novedad. Es seguir el ritmo de un agente rápido sin estar atado a tu escritorio.

Un agente de programación moderno hace mucho por turno, y los huecos entre tus turnos son donde normalmente perderías el contexto : te alejas, el agente termina, y vuelves a una pantalla llena de salida que ahora tienes que leer. El modo manos libres de Voice Mode cierra ese hueco. El agente te dice lo que hizo cuando termina, en voz alta, y respondes sin volver a sentarte.

El manos libres mantiene el micrófono abierto entre turnos, para que la conversación fluya como una llamada telefónica : tú hablas, él trabaja, él habla, tú vuelves a hablar. ¿Prefieres controlar cada turno ? Toca para hablar toma un turno cada vez, práctico en una sala ruidosa o cuando solo quieres intervenir de vez en cuando.

El pitido es un pequeño detalle que cuenta en la práctica. Cuando no estás mirando la pantalla, un breve pitido te indica que el agente terminó de hablar y que te toca, para que no le pises la palabra ni esperes en silencio preguntándote si ha terminado.

Esto es lo que hace que Voice Mode sea útil para el trabajo de verdad y no solo una demo. Está hecho para los momentos en que el agente lleva el peso de la tarea y tú quieres dirigir, comprobar y aprobar, mientras tus manos y tus ojos están libres para todo lo demás.

Elige tu voz, sigue la conversación

Voice Mode te da los controles que hacen cómoda una conversación hablada, y te muestra exactamente dónde está cada turno.

Voces y señales

  • Voz de respuesta : alloy y otras voces naturales
  • Manos libres : sigue escuchando entre turnos
  • Toca para hablar : un turno cada vez
  • Pitido : un breve tono marca la frontera de cada turno
  • Idioma automático : habla con tus propias palabras, detecta el idioma

Estados de la conversación

  • Escucha : el micrófono capta tu turno
  • Transcripción : tu voz se convierte en texto
  • Envío : tu mensaje sale hacia el agente
  • Trabajo : el agente hace la tarea
  • Habla : la respuesta del agente se lee en voz alta

La detección automática de idioma significa que no tienes que elegir un idioma para empezar a hablar, y los estados visibles significan que nunca adivinas si el agente te oyó, está trabajando o está a punto de responder.

Lo que Voice Mode hace de verdad bajo el capó

Voice Mode es una capa full duplex sobre una sesión de agente normal. En tu turno, graba tu voz y envía el audio al backend de AgentsRoom, que ejecuta la voz a texto y devuelve la transcripción. Esa transcripción se inyecta en el agente en marcha como tu mensaje, así que desde el punto de vista del agente es solo un turno más en la conversación que ya tiene contigo.

En el turno del agente, su respuesta textual se envía de vuelta al backend de AgentsRoom para una síntesis de texto a voz en la voz que elegiste, y el audio resultante se te reproduce. Voz a texto de entrada, texto a voz de salida, con el trabajo real del agente en medio. Por eso Voice Mode necesita una cuenta y un agente en marcha : el backend de voz hace de proxy de los modelos de habla y la conversación está ligada a una sesión activa.

Como el agente solo ve texto, Voice Mode es neutral respecto al proveedor por construcción. Ya sea que el agente sea Claude Code, Codex, Gemini CLI, OpenCode o Aider, tu turno transcrito llega como un mensaje y su respuesta se pronuncia de la misma forma. Nada en la capa de voz depende de qué CLI esté corriendo por debajo.

Voice Mode y el dictado por voz comparten el mismo saldo de créditos de voz, ya que ambos se apoyan en el mismo backend de habla. El dictado gasta créditos para transcribir en un solo sentido ; Voice Mode los gasta en el ida y vuelta de la transcripción más las respuestas habladas, abierto por naturaleza porque una conversación puede durar tanto como sigas hablando.

Dónde funciona Voice Mode

Una conversación hablada bidireccional con un agente de escritorio en marcha, voz de entrada y voz de salida.

Escritorio, sobre un agente activo

Voice Mode corre en macOS, lanzado desde el composer de un agente ya en marcha. Habla con ese agente concreto en su sesión actual, así que la conversación tiene todo el contexto que el agente ha acumulado, no una página en blanco.

Voz de entrada

El micrófono capta tu turno y el backend de voz de AgentsRoom lo transcribe, luego se envía al agente como tu mensaje. El manos libres mantiene el micrófono abierto entre turnos ; toca para hablar toma un turno cada vez. El idioma se detecta solo.

Voz de salida

La respuesta del agente se lee en voz alta con texto a voz en la voz que elijas (alloy y otras). Un pitido opcional marca el final de cada respuesta hablada para que sepas que te toca, incluso cuando no estás mirando la pantalla.

Dictado por voz vs Voice Mode

Ambos usan tu voz. Uno escribe un prompt por ti, el otro mantiene una conversación.

Dictado por voz (un solo sentido)

  • : Hablas, transcribe tus palabras en el composer.
  • : Aun así lees tú mismo la respuesta del agente en pantalla.
  • : Ideal para escribir rápido un prompt largo y preciso.
  • : Te quedas en el teclado para enviar y para leer el resultado.
  • : Una dirección : voz de entrada, texto en el borrador, y a partir de ahí lo tomas tú.

Voice Mode (bidireccional)

  • : Dices tu turno, el agente responde en voz alta.
  • : Escuchas la respuesta, sin necesidad de leer el terminal.
  • : Ideal para dirigir y comprobar mientras el agente trabaja.
  • : El manos libres mantiene la conversación viva sin el teclado.
  • : Ambas direcciones : voz de entrada, el agente trabaja, voz de salida.

Usa el dictado para escribir un buen prompt en segundos, y Voice Mode para hablar con el agente mientras lo ejecuta.

Cómo suena un turno hablado

No tecleas nada de esto. Dices tu turno en voz alta, el agente hace el trabajo, y te responde de viva voz. Aquí tienes una ronda de una conversación de Voice Mode.

Una ronda de conversación

Tú : ¿Por dónde vamos con el refactor del login?
Agente : El rate limiter está puesto y la ruta de éxito está intacta. Dos tests siguen en rojo.
Tú : Arregla los dos tests que fallan, luego lanza toda la suite y dime el recuento.
Agente : Hecho. Los dos pasan ahora. Suite completa : 142 pasados, 0 fallidos.
Tú : Bien. Haz commit con un mensaje corto y párate ahí.
Tú arrancas cada turno
Voice Mode no actúa por su cuenta. Tocas o hablas para tomar un turno, y el agente solo hace lo que tu mensaje hablado pidió. Toca para hablar te da control turno a turno ; el manos libres solo escucha mientras Voice Mode está abierto.
Cuenta y agente activo
Voice Mode necesita una cuenta con sesión iniciada, porque el backend de voz hace de proxy de los modelos de habla y factura créditos de voz, y un agente en marcha, porque la conversación está ligada a esa sesión activa y a su contexto.
Funciona con cualquier agente
El agente solo ve texto, así que Voice Mode se comporta igual con Claude Code, Codex, Gemini CLI, OpenCode y Aider. La capa de voz envuelve la sesión y nunca depende de qué CLI esté por debajo.

FAQ

¿Qué es Voice Mode en AgentsRoom ?

Voice Mode es una conversación de voz bidireccional con un agente de programación IA en marcha. Tocas y dices tu turno, tu voz se transcribe y se envía al agente, el agente hace el trabajo, y su respuesta se te lee en voz alta con una voz natural. Te permite hablar con un agente y escuchar sus respuestas en lugar de teclear prompts y leer la salida del terminal.

¿En qué se diferencia Voice Mode del dictado por voz ?

El dictado por voz es de un solo sentido : hablas y tus palabras se transcriben en el composer como un prompt, luego lees la respuesta del agente en pantalla. Voice Mode es bidireccional : dices tu turno y el agente responde en voz alta, un ida y vuelta hablado en directo. El dictado ayuda a escribir un prompt más rápido ; Voice Mode permite mantener una conversación con manos libres mientras el agente trabaja.

¿El agente habla de verdad de vuelta ?

Sí. La respuesta del agente se convierte en habla con texto a voz y se reproduce en voz alta en la voz que elijas. Escuchas el estado, el resultado y la siguiente pregunta, así que no tienes que leer el terminal para saber qué hizo el agente.

¿Qué es el modo manos libres ?

El manos libres mantiene el micrófono abierto entre turnos, para que la conversación fluya como una llamada telefónica : hablas, el agente trabaja, él habla, y ya está escuchando tu siguiente turno. Si prefieres controlar cada turno, toca para hablar toma un turno cada vez, práctico en una sala ruidosa.

¿Puedo elegir la voz ?

Sí. Eliges la voz de respuesta (alloy y otras voces) que se usa para las respuestas habladas del agente. También puedes activar un pitido opcional, que reproduce un breve tono en la frontera entre turnos para que sepas cuándo el agente terminó de hablar y te toca.

¿Qué idiomas admite Voice Mode ?

Voice Mode detecta automáticamente el idioma que hablas, así que puedes hablar con tus propias palabras sin elegir un idioma primero. La transcripción la gestiona el backend de voz de AgentsRoom, el mismo stack de habla que se usa para el dictado.

¿Necesito una cuenta y un agente en marcha ?

Sí a ambos. Voice Mode necesita una cuenta con sesión iniciada porque el backend de voz hace de proxy de los modelos de habla y toma de tus créditos de voz, y necesita un agente que ya esté en marcha, porque la conversación está ligada a esa sesión activa y usa su contexto actual.

¿Voice Mode consume créditos ?

Sí. Voice Mode funciona con el mismo saldo de créditos de voz que el dictado. El dictado gasta créditos para transcribir tu voz en un solo sentido ; Voice Mode los gasta en el ida y vuelta completo de la transcripción más las respuestas habladas, abierto por naturaleza porque una conversación puede durar tanto como sigas hablando.

¿Está disponible en la demo web en línea ?

No. La demo web pública simula el backend, así que la conversación de voz en tiempo real no puede correr ahí. Hacer clic en Voice Mode en la demo muestra un aviso que te invita a descargar AgentsRoom, donde Voice Mode habla con tus agentes reales.

¿Voice Mode funciona con Claude Code, Codex y Gemini ?

Sí, con todos, además de OpenCode y Aider. El agente solo ve texto, así que tu turno hablado llega como un mensaje y su respuesta se pronuncia de la misma forma, sin importar qué CLI de agente esté corriendo por debajo.

Combina bien con

Habla con tus agentes, escúchalos responderte

Descarga AgentsRoom y abre Voice Mode sobre un agente en marcha. Di tu turno, escucha la respuesta, y sigue en el bucle con manos libres mientras el agente hace el trabajo. Una conversación de voz bidireccional integrada en tu IDE de programación IA.

GratisDescargar AgentsRoom

App complementaria: supervisa tus agentes en movimiento

Usa Claude, Codex, Gemini CLI u otro proveedor de IA.

Instalar la extensión
Chrome Web Store

Envía bugs y peticiones directamente a tu backlog público.

Un vistazo a AgentsRoom en acción.

Multi-proyectos
Multi-proveedor
Multi-agentes
Estado en vivo
Diff y commit
App móvil
Vista previa
Equipos de agentes
Pruebas en navegador
Dev guiada por backlog
Biblioteca de prompts
Biblioteca de skills
Ver todas las funcionalidades