Smetti di leggere il terminale.
Parla con il tuo agente.
Voice Mode è una conversazione vocale bidirezionale con un agente di coding IA in esecuzione. Un tocco, dici la tua, e l'agente risponde a voce alta con una voce naturale. Niente prompt da digitare, niente muri di output del terminale da scorrere per capire cos'è successo.
Attiva le mani libere e continua ad ascoltare tra una risposta e l'altra : puoi muoverti per la stanza, guardare la build o sorseggiare il caffè mentre discuti il piano. Chiedi a che punto è il refactor e te lo dice. Di' lancia i test e fammi sapere : li lancia e poi annuncia il risultato a voce.

Voice Mode in azione : l'agente è in ascolto, le mani libere sono attive, la voce di risposta è impostata e l'agente risponde a voce alta tra un tuo turno e l'altro.
Ecco il cambiamento a cui risponde Voice Mode. Il tuo agente gira più a lungo e fa di più da solo : modifica file, lancia comandi, scrive test, ripara ciò che ha rotto. Il collo di bottiglia non è più scrivere il codice, è restare aggiornato mentre l'agente lavora. Leggere riga dopo riga l'output del terminale, o digitare l'ennesimo prompt per chiedere cosa sta succedendo, ti riporta alla tastiera a ogni singolo turno.
Voice Mode trasforma quel ciclo in una conversazione. Tu dici la tua a voce alta, l'agente risponde a voce alta. Fai una domanda, dai una correzione, approvi un piano, tutto a voce, e ascolti la risposta pronunciata con una voce naturale invece di decifrarla sullo schermo. È la differenza tra supervisionare un processo e parlare con un collega.
Non è la stessa cosa della dettatura vocale. La dettatura è a senso unico : tu parli, trascrive le tue parole nel composer, e tu leggi comunque la risposta dell'agente. Voice Mode è bidirezionale : voce in entrata, voce in uscita, un vero scambio dal vivo. La dettatura ti aiuta a scrivere un prompt più in fretta. Voice Mode ti permette di fare a meno della tastiera e dello schermo mentre tieni in movimento un agente.
Perché parlare con il tuo agente invece di digitare e leggere
Resta aggiornato, a mani libere. Un agente capace può girare per minuti su una sola istruzione. Con Voice Mode a mani libere, resti in contatto per tutto il tempo senza stare incollato alla tastiera. Chiedi uno stato, indirizza il passo successivo, conferma una decisione, tutto mentre sei in piedi alla lavagna o guardi l'app ricaricarsi.
Un vero scambio. Digitare un prompt, aspettare, leggere l'output, digitare di nuovo è un ciclo a singhiozzo. Dire la tua e ascoltare la risposta è una conversazione. È più rapido per i turni brevi (un sì veloce, una piccola correzione, una domanda in più) e molto meno faticoso che leggere muri di testo del terminale a ogni aggiornamento.
Occhi liberi, schermo libero. Ascoltare la risposta dell'agente significa che non devi guardare il terminale per sapere cosa ha fatto. Dai un'occhiata alla build, ai tuoi test, al tuo design, o a niente del tutto, e lascia che l'aggiornamento vocale ti dica a che punto sono le cose. L'agente racconta, tu tieni gli occhi dove c'è il vero lavoro.
Sugli stessi crediti voce. Voice Mode usa il backend voce di AgentsRoom, riconoscimento vocale in entrata e sintesi vocale in uscita, attingendo allo stesso saldo di crediti voce della dettatura. Un solo saldo alimenta sia la dettatura di prompt sia le conversazioni vocali complete : non c'è nient'altro da configurare.
Come funziona Voice Mode
Aprilo su un agente in esecuzione, parla, ascolta, ripeti. Un ciclo parlato invece di digita-e-leggi.
Apri Voice Mode su un agente in esecuzione
Voice Mode si avvia per un agente già in esecuzione nel suo terminale, dal composer di quell'agente. Ha bisogno di una sessione attiva perché la conversazione è con quell'agente specifico, nel suo contesto attuale, non una chat vuota.
Tocca per parlare
Un tocco e dici la tua : una domanda, un'istruzione, una correzione. Lo stato passa in ascolto con un indicatore dal vivo, così vedi che il microfono sta captando. Scegli le mani libere per farlo continuare ad ascoltare tra un turno e l'altro, o il tocca-per-parlare per prendere un turno alla volta.
Trascrive e invia all'agente
Quando hai finito, la tua voce viene trascritta e inviata all'agente in esecuzione come tuo messaggio, esattamente come se l'avessi digitato. Lo stato passa attraverso trascrizione e invio, così sai sempre a che punto è il tuo turno nella pipeline.
L'agente lavora
L'agente elabora il tuo turno nella sua sessione : può leggere file, lanciare comandi, modificare codice, eseguire test, tutto ciò che il tuo messaggio chiedeva. Voice Mode mostra uno stato di lavoro con il nome dell'agente mentre fa il lavoro, proprio come un normale turno nel terminale.
Ascolta la risposta a voce alta
Quando l'agente risponde, la sua risposta viene letta a voce alta nella voce che hai scelto. Ascolti lo stato, il risultato, la domanda successiva, senza leggere il terminale. Un segnale acustico opzionale marca il confine tra i turni così sai quando tocca di nuovo a te.
Prendi il tuo turno successivo
A mani libere è già di nuovo in ascolto, quindi continua semplicemente a parlare. In tocca-per-parlare tocchi per iniziare il tuo turno successivo. La conversazione continua per tutto il tempo che vuoi, poi chiudi Voice Mode e l'agente è esattamente dove l'avevi lasciato nel suo terminale.
Mani libere, per restare aggiornato senza la tastiera
Il punto di Voice Mode non è la novità. È stare al passo con un agente veloce senza essere incatenato alla scrivania.
Un agente di coding moderno fa molto per turno, e gli intervalli tra i tuoi turni sono dove normalmente perderesti il contesto : ti allontani, l'agente finisce, e torni a uno schermo pieno di output che ora devi leggere. Voice Mode a mani libere colma quel divario. L'agente ti dice cosa ha fatto quando ha finito, a voce alta, e tu rispondi senza doverti rimettere a sedere.
Le mani libere tengono il microfono aperto tra i turni, così la conversazione scorre come una telefonata : tu parli, lui lavora, lui parla, tu riparli. Preferisci controllare ogni turno ? Il tocca-per-parlare prende un turno alla volta, comodo in una stanza rumorosa o quando vuoi solo intervenire ogni tanto.
Il segnale acustico è un piccolo dettaglio che conta in pratica. Quando non guardi lo schermo, un breve segnale ti dice che l'agente ha finito di parlare e che tocca a te, così non gli accavalli la voce e non aspetti in silenzio chiedendoti se ha finito.
È questo che rende Voice Mode utile per il lavoro vero e non solo una demo. È fatto per i momenti in cui l'agente fa il grosso del lavoro e tu vuoi indirizzare, fare il punto e approvare, mentre le tue mani e i tuoi occhi sono liberi per tutto il resto.
Scegli la tua voce, segui la conversazione
Voice Mode ti dà i controlli che rendono comoda una conversazione parlata, e ti mostra esattamente a che punto è ogni turno.
Voci e segnali
- Voce di risposta : alloy e altre voci naturali
- Mani libere : continua ad ascoltare tra i turni
- Tocca-per-parlare : un turno alla volta
- Segnale acustico : un breve suono marca il confine di ogni turno
- Lingua automatica : parla con parole tue, rileva la lingua
Stati della conversazione
- Ascolto : il microfono sta captando il tuo turno
- Trascrizione : la tua voce viene convertita in testo
- Invio : il tuo messaggio sta andando all'agente
- Lavoro : l'agente sta facendo il lavoro
- Parlato : la risposta dell'agente viene letta a voce alta
Il rilevamento automatico della lingua significa che non devi sceglierne una per iniziare a parlare, e gli stati visibili fanno sì che tu non debba mai indovinare se l'agente ti ha sentito, sta lavorando o sta per rispondere.
Cosa fa davvero Voice Mode sotto il cofano
Voice Mode è uno strato full duplex sopra una normale sessione d'agente. Al tuo turno, registra la tua voce e invia l'audio al backend AgentsRoom, che esegue il riconoscimento vocale e restituisce la trascrizione. Quella trascrizione viene iniettata nell'agente in esecuzione come tuo messaggio, così dal punto di vista dell'agente è solo un altro turno della conversazione che sta già avendo con te.
Al turno dell'agente, la sua risposta testuale viene rispedita al backend AgentsRoom per la sintesi vocale nella voce che hai selezionato, e l'audio risultante ti viene riprodotto. Riconoscimento vocale in entrata, sintesi vocale in uscita, con il vero lavoro dell'agente nel mezzo. Ecco perché Voice Mode ha bisogno di un account e di un agente in esecuzione : il backend voce fa da proxy ai modelli vocali e la conversazione è legata a una sessione attiva.
Poiché l'agente vede solo testo, Voice Mode è neutrale rispetto al provider per costruzione. Che l'agente sia Claude Code, Codex, Gemini CLI, OpenCode o Aider, il tuo turno trascritto arriva come messaggio e la sua risposta viene pronunciata allo stesso modo. Niente nello strato voce dipende da quale CLI gira sotto.
Voice Mode e Voice Dictation condividono lo stesso saldo di crediti voce, dato che entrambi si appoggiano allo stesso backend vocale. La dettatura spende crediti per trascrivere a senso unico ; Voice Mode li spende sull'andata e ritorno della trascrizione più le risposte parlate, aperto per natura perché una conversazione può durare finché continui a parlare.
Dove funziona Voice Mode
Una conversazione parlata bidirezionale con un agente desktop in esecuzione, voce in entrata e voce in uscita.
Desktop, su un agente attivo
Voice Mode gira su macOS, avviato dal composer di un agente già in esecuzione. Parla con quell'agente specifico nella sua sessione attuale, quindi la conversazione ha tutto il contesto che l'agente ha accumulato, non una pagina bianca.
Voce in entrata
Il tuo turno viene captato dal microfono e trascritto dal backend voce di AgentsRoom, poi inviato all'agente come tuo messaggio. Le mani libere tengono il microfono aperto tra i turni ; il tocca-per-parlare prende un turno alla volta. La lingua si rileva da sola.
Voce in uscita
La risposta dell'agente viene letta a voce alta con la sintesi vocale nella voce che scegli (alloy e altre). Un segnale acustico opzionale marca la fine di ogni risposta parlata così sai che tocca a te, anche senza guardare lo schermo.
Dettatura vocale vs Voice Mode
Entrambe usano la tua voce. Una scrive un prompt per te, l'altra tiene una conversazione.
Dettatura vocale (a senso unico)
- : Tu parli, trascrive le tue parole nel composer.
- : Leggi comunque tu stesso la risposta dell'agente sullo schermo.
- : Ottima per scrivere in fretta un prompt lungo e preciso.
- : Resti alla tastiera per inviare e per leggere il risultato.
- : Una direzione : voce in entrata, testo nella bozza, da lì in poi sei tu.
Voice Mode (bidirezionale)
- : Tu dici la tua, l'agente risponde a voce alta.
- : Ascolti la risposta, non serve leggere il terminale.
- : Ottimo per indirizzare e fare il punto mentre l'agente lavora.
- : Le mani libere tengono viva la conversazione senza la tastiera.
- : Entrambe le direzioni : voce in entrata, l'agente lavora, voce in uscita.
Usa la dettatura per scrivere un ottimo prompt in pochi secondi, e Voice Mode per parlare con l'agente mentre lo porta a termine.
Com'è fatto un turno parlato
Non digiti niente di tutto questo. Dici la tua a voce alta, l'agente fa il lavoro e ti pronuncia la risposta. Ecco un giro di una conversazione Voice Mode.
Un giro di conversazione
Tu : A che punto siamo sul refactor del login ?
Agente : Il rate limiter è a posto e il percorso di successo è intatto. Due test sono ancora rossi.
Tu : Sistema i due test che falliscono, poi lancia tutta la suite e dimmi il conteggio.
Agente : Fatto. Ora passano entrambi. Suite completa : 142 superati, 0 falliti.
Tu : Bene. Fai il commit con un messaggio breve e fermati lì.FAQ
Cos'è Voice Mode in AgentsRoom ?
Voice Mode è una conversazione vocale bidirezionale con un agente di coding IA in esecuzione. Tocchi e dici la tua, la tua voce viene trascritta e inviata all'agente, l'agente fa il lavoro, e la sua risposta ti viene letta a voce alta con una voce naturale. Ti permette di parlare con un agente e ascoltare le sue risposte invece di digitare prompt e leggere l'output del terminale.
In cosa Voice Mode è diverso dalla dettatura vocale ?
La dettatura vocale è a senso unico : tu parli e le tue parole vengono trascritte nel composer come un prompt, poi leggi la risposta dell'agente sullo schermo. Voice Mode è bidirezionale : tu dici la tua e l'agente risponde a voce alta, uno scambio parlato dal vivo. La dettatura ti aiuta a scrivere un prompt più in fretta ; Voice Mode ti permette di tenere una conversazione a mani libere mentre l'agente lavora.
L'agente parla davvero in risposta ?
Sì. La risposta dell'agente viene convertita in voce con la sintesi vocale e riprodotta a voce alta nella voce che scegli. Ascolti lo stato, il risultato e la domanda successiva, quindi non devi leggere il terminale per sapere cosa ha fatto l'agente.
Cos'è la modalità mani libere ?
Le mani libere tengono il microfono aperto tra i turni, così la conversazione scorre come una telefonata : tu parli, l'agente lavora, lui parla, ed è già in ascolto del tuo turno successivo. Se preferisci controllare ogni turno, il tocca-per-parlare prende un turno alla volta, comodo in una stanza rumorosa.
Posso scegliere la voce ?
Sì. Scegli la voce di risposta (alloy e altre voci) usata per le risposte parlate dell'agente. Puoi anche attivare un segnale acustico opzionale, che riproduce un breve suono al confine tra i turni così sai quando l'agente ha finito di parlare e tocca a te.
Quali lingue supporta Voice Mode ?
Voice Mode rileva automaticamente la lingua che parli, così puoi parlare con parole tue senza scegliere prima una lingua. La trascrizione è gestita dal backend voce di AgentsRoom, lo stesso stack vocale usato per la dettatura.
Mi servono un account e un agente in esecuzione ?
Sì a entrambi. Voice Mode ha bisogno di un account connesso perché il backend voce fa da proxy ai modelli vocali e attinge ai tuoi crediti voce, e ha bisogno di un agente già in esecuzione, perché la conversazione è legata a quella sessione attiva e usa il suo contesto attuale.
Voice Mode consuma crediti ?
Sì. Voice Mode gira sullo stesso saldo di crediti voce della dettatura. La dettatura spende crediti per trascrivere la tua voce a senso unico ; Voice Mode li spende sull'andata e ritorno completa della trascrizione più le risposte parlate, aperto per natura perché una conversazione può durare finché continui a parlare.
È disponibile nella demo web dal vivo ?
No. La demo web pubblica simula il backend, quindi la conversazione vocale in tempo reale non può girarci. Cliccare Voice Mode nella demo mostra un avviso che ti invita a scaricare AgentsRoom, dove Voice Mode parla con i tuoi veri agenti.
Voice Mode funziona con Claude Code, Codex e Gemini ?
Sì, con tutti, più OpenCode e Aider. L'agente vede sempre e solo testo, quindi il tuo turno parlato arriva come messaggio e la sua risposta viene pronunciata allo stesso modo, qualunque CLI d'agente giri sotto.
Si abbina bene a
Dettatura vocale
Il fratello a senso unico di Voice Mode. Detta un prompt lungo e preciso nel composer a voce, poi parla con l'agente mentre lo porta a termine.
Controllo remoto degli agenti
Pilota i tuoi agenti desktop dal telefono. La voce è il modo più naturale per stare al passo con un agente quando sei lontano dalla tastiera.
Sync mobile-desktop
Il collegamento cifrato end-to-end tra il tuo telefono e i tuoi agenti desktop, così resti connesso a ciò che gira sul tuo Mac.
Stato degli agenti
Vedi chi sta lavorando, chi ha finito, chi è bloccato a colpo d'occhio. Voice Mode ti permette di chiedere quello stato a voce alta a un agente in esecuzione.
Multi-Provider
Fai girare Claude, Codex, Gemini, OpenCode e Aider fianco a fianco. Voice Mode parla con ciascuno allo stesso modo.
Scratchpad
Un editor più grande nel footer per appunti e brief più lunghi. Abbinalo alla voce quando un turno è troppo lungo o troppo preciso da pronunciare.
Parla con i tuoi agenti, ascoltali risponderti
Scarica AgentsRoom e apri Voice Mode su un agente in esecuzione. Di' la tua, ascolta la risposta e resta aggiornato a mani libere mentre l'agente fa il lavoro. Una conversazione vocale bidirezionale integrata nel tuo IDE di coding IA.
App companion: monitora i tuoi agenti in movimento
Usa Claude, Codex, Gemini CLI o un altro provider IA.
Invia bug e richieste direttamente nel tuo backlog pubblico.
Uno sguardo ad AgentsRoom in azione.