Arrêtez de lire le terminal.
Parlez à votre agent.
Voice Mode, c'est une conversation vocale bidirectionnelle avec un agent de code IA qui tourne. Un tap, vous dites votre tour, et l'agent répond à voix haute d'une voix naturelle. Pas de prompt à taper, pas de mur de sortie terminal à faire défiler pour savoir ce qui s'est passé.
Activez le mode mains libres et il continue d'écouter entre les réponses : vous pouvez arpenter la pièce, regarder le build ou boire votre café pendant que vous discutez du plan. Demandez où en est le refactor, il vous le dit. Dites lance les tests et fais-moi un retour, il les lance, puis annonce le résultat.

Voice Mode en action : l'agent écoute, le mode mains libres est activé, la voix de réponse est choisie, et l'agent répond à voix haute entre vos tours.
Voici le basculement auquel répond Voice Mode. Votre agent tourne plus longtemps et fait plus de choses tout seul : il édite des fichiers, lance des commandes, écrit des tests, répare ce qu'il a cassé. Le goulot d'étranglement n'est plus d'écrire le code, c'est de rester dans la boucle pendant que l'agent travaille. Lire ligne après ligne de sortie terminal, ou taper encore un prompt pour demander ce qui se passe, vous ramène au clavier à chaque tour.
Voice Mode transforme cette boucle en conversation. Vous dites votre tour à voix haute, l'agent répond à voix haute. Vous posez une question, donnez une correction, validez un plan, le tout à la voix, et vous entendez la réponse prononcée d'une voix naturelle au lieu de la déchiffrer à l'écran. C'est la différence entre superviser un processus et parler à un coéquipier.
Ce n'est pas la même chose que la dictée vocale. La dictée est à sens unique : vous parlez, elle transcrit vos mots dans le composer, et vous lisez quand même la réponse de l'agent. Voice Mode est bidirectionnel : voix en entrée, voix en sortie, un vrai échange en direct. La dictée vous aide à écrire un prompt plus vite. Voice Mode vous permet de vous passer du clavier et de l'écran pendant que vous gardez un agent en mouvement.
Pourquoi parler à votre agent plutôt que taper et lire
Rester dans la boucle, mains libres. Un agent capable peut tourner plusieurs minutes sur une seule instruction. Avec Voice Mode en mains libres, vous restez en contact tout du long sans rester sur le clavier. Demandez un statut, orientez l'étape suivante, confirmez une décision, tout en étant debout au tableau ou en regardant l'app se recharger.
Un véritable échange. Taper un prompt, attendre, lire la sortie, retaper, c'est une boucle hachée. Dire son tour et entendre la réponse, c'est une conversation. C'est plus rapide pour les tours courts (un oui rapide, une petite correction, une question de plus) et bien moins fatigant que de lire des murs de texte terminal à chaque mise à jour.
Yeux libres, écran libre. Entendre la réponse de l'agent veut dire que vous n'avez pas besoin de regarder le terminal pour savoir ce qu'il a fait. Jetez un œil au build, à vos tests, à votre design, ou à rien du tout, et laissez la mise à jour vocale vous dire où en sont les choses. L'agent commente, vous gardez les yeux là où le vrai travail se passe.
Sur les mêmes crédits voix. Voice Mode utilise le backend voix d'AgentsRoom, reconnaissance vocale en entrée et synthèse vocale en sortie, en puisant dans le même solde de crédits voix que la dictée. Un seul solde alimente à la fois la dictée de prompts et les conversations vocales complètes : rien de plus à brancher.
Comment marche Voice Mode
Ouvrez-le sur un agent qui tourne, parlez, écoutez, recommencez. Une boucle parlée au lieu de taper-et-lire.
Ouvrez Voice Mode sur un agent en cours
Voice Mode se lance pour un agent déjà en cours d'exécution dans son terminal, depuis le composer de cet agent. Il a besoin d'une session active parce que la conversation est avec cet agent précis, dans son contexte actuel, pas un chat vierge.
Tapez pour parler
Un tap et vous dites votre tour : une question, une instruction, une correction. L'état passe en écoute avec un indicateur en direct, pour que vous voyiez que le micro capte. Choisissez le mains libres pour qu'il continue d'écouter entre les tours, ou le tap-pour-parler pour prendre un tour à la fois.
Il transcrit et envoie à l'agent
Quand vous terminez, votre parole est transcrite et envoyée à l'agent en cours comme votre message, exactement comme si vous l'aviez tapé. L'état passe par transcription puis envoi, pour que vous sachiez toujours où en est votre tour dans le pipeline.
L'agent travaille
L'agent traite votre tour dans sa propre session : il peut lire des fichiers, lancer des commandes, éditer du code, exécuter des tests, tout ce que votre message demandait. Voice Mode affiche un état de travail avec le nom de l'agent pendant qu'il fait le job, comme un tour normal dans le terminal.
Écoutez la réponse à voix haute
Quand l'agent répond, sa réponse est lue à voix haute dans la voix que vous avez choisie. Vous entendez le statut, le résultat, la question suivante, sans lire le terminal. Un bip optionnel marque la frontière entre les tours pour que vous sachiez quand c'est de nouveau à vous.
Prenez votre tour suivant
En mains libres, il écoute déjà à nouveau, vous n'avez qu'à continuer de parler. En tap-pour-parler, vous tapez pour démarrer votre tour suivant. La conversation continue aussi longtemps que vous voulez, puis vous fermez Voice Mode et l'agent est exactement là où vous l'avez laissé dans son terminal.
Mains libres, pour rester dans la boucle sans le clavier
L'intérêt de Voice Mode n'est pas la nouveauté. C'est de suivre un agent rapide sans être rivé à votre bureau.
Un agent de code moderne fait beaucoup par tour, et les intervalles entre vos tours sont là où vous perdriez normalement le contexte : vous vous éloignez, l'agent termine, et vous revenez à un écran plein de sortie que vous devez maintenant lire. Le mode mains libres de Voice Mode comble cet écart. L'agent vous dit ce qu'il a fait quand c'est terminé, à voix haute, et vous répondez sans vous rasseoir.
Le mains libres garde le micro ouvert entre les tours, pour que la conversation coule comme un appel téléphonique : vous parlez, il travaille, il parle, vous reparlez. Vous préférez contrôler chaque tour ? Le tap-pour-parler prend un tour à la fois, pratique dans une pièce bruyante ou quand vous voulez juste intervenir de temps en temps.
Le bip est un petit détail qui compte en pratique. Quand vous ne regardez pas l'écran, un bref bip vous indique que l'agent a fini de parler et que c'est à vous, pour que vous ne lui coupiez pas la parole et n'attendiez pas en silence à vous demander s'il a terminé.
C'est ce qui rend Voice Mode utile pour du vrai travail et pas seulement une démo. Il est fait pour les moments où l'agent abat le gros du travail et où vous voulez orienter, faire un point et valider, pendant que vos mains et vos yeux sont libres pour tout le reste.
Choisissez votre voix, suivez la conversation
Voice Mode vous donne les réglages qui rendent une conversation parlée confortable, et vous montre exactement où en est chaque tour.
Voix et signaux
- Voix de réponse : alloy et d'autres voix naturelles
- Mains libres : continue d'écouter entre les tours
- Tap-pour-parler : un tour à la fois
- Bip : un bref signal marque la frontière de chaque tour
- Langue auto : parlez dans vos mots, il détecte la langue
États de la conversation
- Écoute : le micro capte votre tour
- Transcription : votre parole est convertie en texte
- Envoi : votre message part vers l'agent
- Travail : l'agent fait le job
- Parole : la réponse de l'agent est lue à voix haute
La détection automatique de la langue vous évite d'en choisir une pour commencer à parler, et les états visibles font que vous ne devinez jamais si l'agent vous a entendu, travaille, ou s'apprête à répondre.
Ce que fait vraiment Voice Mode sous le capot
Voice Mode est une couche full duplex au-dessus d'une session d'agent normale. À votre tour, il enregistre votre voix et envoie l'audio au backend AgentsRoom, qui exécute la reconnaissance vocale et renvoie la transcription. Cette transcription est injectée dans l'agent en cours comme votre message : du point de vue de l'agent, c'est juste un tour de plus dans la conversation qu'il a déjà avec vous.
Au tour de l'agent, sa réponse textuelle est renvoyée au backend AgentsRoom pour une synthèse vocale dans la voix que vous avez choisie, et l'audio obtenu vous est joué. Reconnaissance vocale en entrée, synthèse vocale en sortie, avec le vrai travail de l'agent au milieu. C'est pourquoi Voice Mode a besoin d'un compte et d'un agent en cours : le backend voix relaie les modèles de parole et la conversation est liée à une session active.
Comme l'agent ne voit jamais que du texte, Voice Mode est neutre vis-à-vis du provider par construction. Que l'agent soit Claude Code, Codex, Gemini CLI, OpenCode ou Aider, votre tour transcrit arrive comme un message et sa réponse est prononcée de la même façon. Rien dans la couche voix ne dépend du CLI qui tourne en dessous.
Voice Mode et la dictée vocale partagent le même solde de crédits voix, puisque les deux s'appuient sur le même backend de parole. La dictée dépense des crédits pour transcrire à sens unique ; Voice Mode en dépense sur l'aller-retour de la transcription plus des réponses parlées, ouvert par nature puisqu'une conversation peut durer aussi longtemps que vous parlez.
Où marche Voice Mode
Une conversation parlée bidirectionnelle avec un agent desktop en cours, voix en entrée et voix en sortie.
Desktop, sur un agent actif
Voice Mode tourne sur macOS, lancé depuis le composer d'un agent déjà en cours. Il parle à cet agent précis dans sa session actuelle, donc la conversation a tout le contexte que l'agent a accumulé, pas une page blanche.
Voix en entrée
Votre tour est capté par le micro et transcrit par le backend voix d'AgentsRoom, puis envoyé à l'agent comme votre message. Le mains libres garde le micro ouvert entre les tours ; le tap-pour-parler prend un tour à la fois. La langue se détecte toute seule.
Voix en sortie
La réponse de l'agent est lue à voix haute par synthèse vocale dans la voix que vous choisissez (alloy et d'autres). Un bip optionnel marque la fin de chaque réponse parlée pour que vous sachiez que c'est à vous, même sans regarder l'écran.
Dictée vocale vs Voice Mode
Les deux utilisent votre voix. L'une écrit un prompt à votre place, l'autre tient une conversation.
Dictée vocale (sens unique)
- : Vous parlez, elle transcrit vos mots dans le composer.
- : Vous lisez quand même la réponse de l'agent à l'écran.
- : Idéale pour écrire vite un prompt long et précis.
- : Vous restez au clavier pour envoyer et pour lire le résultat.
- : Une direction : voix en entrée, texte dans le brouillon, à vous de jouer ensuite.
Voice Mode (bidirectionnel)
- : Vous dites votre tour, l'agent répond à voix haute.
- : Vous entendez la réponse, pas besoin de lire le terminal.
- : Idéal pour orienter et faire des points pendant que l'agent travaille.
- : Le mains libres garde la conversation vivante sans le clavier.
- : Les deux directions : voix en entrée, l'agent travaille, voix en sortie.
Servez-vous de la dictée pour écrire un bon prompt en quelques secondes, et de Voice Mode pour parler avec l'agent pendant qu'il l'exécute.
À quoi ressemble un tour parlé
Vous ne tapez rien de tout ça. Vous dites votre tour à voix haute, l'agent fait le travail, et il vous répond de vive voix. Voici un tour d'une conversation Voice Mode.
Un tour de conversation
Vous : On en est où sur le refactor du login ?
Agent : Le rate limiter est en place et le chemin de succès est intact. Deux tests sont encore rouges.
Vous : Corrige les deux tests qui échouent, puis lance toute la suite et donne-moi le compte.
Agent : Fait. Les deux passent maintenant. Suite complète : 142 réussis, 0 échec.
Vous : Bien. Commit avec un message court et arrête-toi là.FAQ
Qu'est-ce que Voice Mode dans AgentsRoom ?
Voice Mode est une conversation vocale bidirectionnelle avec un agent de code IA en cours. Vous tapez et dites votre tour, votre parole est transcrite et envoyée à l'agent, l'agent fait le travail, et sa réponse vous est lue à voix haute d'une voix naturelle. Il vous permet de parler avec un agent et d'entendre ses réponses au lieu de taper des prompts et de lire la sortie terminal.
En quoi Voice Mode diffère-t-il de la dictée vocale ?
La dictée vocale est à sens unique : vous parlez et vos mots sont transcrits dans le composer comme un prompt, puis vous lisez la réponse de l'agent à l'écran. Voice Mode est bidirectionnel : vous dites votre tour et l'agent répond à voix haute, un échange parlé en direct. La dictée aide à écrire un prompt plus vite ; Voice Mode permet de tenir une conversation mains libres pendant que l'agent travaille.
L'agent parle-t-il vraiment en retour ?
Oui. La réponse de l'agent est convertie en parole par synthèse vocale et jouée à voix haute dans la voix que vous choisissez. Vous entendez le statut, le résultat et la question suivante, donc vous n'avez pas à lire le terminal pour savoir ce que l'agent a fait.
C'est quoi le mode mains libres ?
Le mains libres garde le micro ouvert entre les tours, pour que la conversation coule comme un appel téléphonique : vous parlez, l'agent travaille, il parle, et il écoute déjà votre tour suivant. Si vous préférez contrôler chaque tour, le tap-pour-parler prend un tour à la fois, pratique dans une pièce bruyante.
Puis-je choisir la voix ?
Oui. Vous choisissez la voix de réponse (alloy et d'autres voix) utilisée pour les réponses parlées de l'agent. Vous pouvez aussi activer un bip optionnel, qui joue un bref signal à la frontière entre les tours pour que vous sachiez quand l'agent a fini de parler et que c'est à vous.
Quelles langues Voice Mode prend-il en charge ?
Voice Mode détecte automatiquement la langue que vous parlez, donc vous pouvez parler dans vos propres mots sans choisir une langue d'abord. La transcription est gérée par le backend voix d'AgentsRoom, la même pile de parole que celle utilisée pour la dictée.
Faut-il un compte et un agent en cours ?
Oui aux deux. Voice Mode a besoin d'un compte connecté parce que le backend voix relaie les modèles de parole et puise dans vos crédits voix, et d'un agent déjà en cours, parce que la conversation est liée à cette session active et utilise son contexte actuel.
Voice Mode consomme-t-il des crédits ?
Oui. Voice Mode tourne sur le même solde de crédits voix que la dictée. La dictée dépense des crédits pour transcrire votre parole à sens unique ; Voice Mode en dépense sur l'aller-retour complet de la transcription plus des réponses parlées, ouvert par nature puisqu'une conversation peut durer aussi longtemps que vous parlez.
Est-ce disponible dans la démo web en ligne ?
Non. La démo web publique simule le backend, donc la conversation vocale en temps réel ne peut pas y tourner. Cliquer sur Voice Mode dans la démo affiche un message vous invitant à télécharger AgentsRoom, où Voice Mode parle à vos vrais agents.
Voice Mode marche-t-il avec Claude Code, Codex et Gemini ?
Oui, avec tous, plus OpenCode et Aider. L'agent ne voit jamais que du texte, donc votre tour parlé arrive comme un message et sa réponse est prononcée de la même façon, quel que soit le CLI d'agent qui tourne en dessous.
Va bien avec
Dictée vocale
Le pendant à sens unique de Voice Mode. Dictez un prompt long et précis dans le composer à la voix, puis parlez avec l'agent pendant qu'il l'exécute.
Contrôle d'agent à distance
Pilotez vos agents desktop depuis votre téléphone. La voix est la façon la plus naturelle de suivre un agent quand vous êtes loin du clavier.
Sync mobile-desktop
Le lien chiffré de bout en bout entre votre téléphone et vos agents desktop, pour rester connecté à ce qui tourne sur votre Mac.
Statut des agents
Voyez qui travaille, qui a fini, qui est bloqué d'un coup d'œil. Voice Mode vous laisse demander ce statut à voix haute à un agent en cours.
Multi-Provider
Faites tourner Claude, Codex, Gemini, OpenCode et Aider côte à côte. Voice Mode parle à n'importe lequel de la même façon.
Scratchpad
Un éditeur plus grand dans le pied de page pour les notes et les briefs plus longs. Associez-le à la voix quand un tour est trop long ou trop précis pour être dit.
Parlez à vos agents, écoutez-les vous répondre
Téléchargez AgentsRoom et ouvrez Voice Mode sur un agent en cours. Dites votre tour, écoutez la réponse, et restez dans la boucle mains libres pendant que l'agent travaille. Une conversation vocale bidirectionnelle intégrée à votre IDE de code IA.
App companion : suivez vos agents en déplacement
Utilisez Claude, Codex, Gemini CLI ou un autre fournisseur IA.
Remontez bugs et demandes directement dans votre backlog public.
Aperçu d'AgentsRoom en action.