Smetti di digitare i prompt.
Dettali.
La dettatura vocale vive direttamente nel composer dell'agente. Clicca il microfono, detta il tuo prompt e il testo trascritto si inserisce nella bozza alla posizione del cursore. Voce in testo per i tuoi agenti di codice, senza una app di dettatura separata da gestire e senza copia-incolla tra finestre.
Digitare un prompt lungo e preciso richiede minuti. Dettarlo richiede pochi secondi. Più contesto per il tuo agente, meno scambi di chiarimento, meno token sprecati. Il valore si è spostato dal codice al prompt, e la dettatura vocale è il modo più rapido per scriverne uno buono.
La dettatura vocale in azione : clicca il microfono, detta il prompt, guarda la forma d'onda dal vivo e la trascrizione speech-to-text arriva nel composer, pronta da modificare e inviare.
Ecco il cambiamento a cui risponde la dettatura vocale. La parte difficile, lavorando con un agente IA, non è più scrivere il codice, lo fa l'agente. La parte difficile è scrivere il prompt : descrivere cosa vuoi, i vincoli, i casi limite, il file da toccare, il comportamento da evitare. Un prompt preciso fa la differenza tra un colpo solo e dieci scambi frustranti. E un prompt preciso è lungo, quindi lento da digitare.
La dettatura vocale elimina la tassa della digitazione. Clicchi il pulsante microfono nel composer, dici tutto ciò che avresti digitato, spesso più di quanto ti saresti preso la briga di digitare, e la trascrizione speech-to-text appare nella bozza. Parli a 150 parole al minuto, non digiti a 150 parole al minuto. Dettare è semplicemente più rapido, e un canale più rapido significa più contesto per ogni task del tuo agente.
Non è un'aggiunta posticcia. Il microfono fa parte del composer di AgentsRoom, accanto alla libreria di prompt e agli strumenti di disegno. La trascrizione si inserisce al tuo cursore, così puoi mescolare digitazione e dettatura nella stessa bozza. Niente viene inviato automaticamente : il testo arriva nella bozza, lo rileggi, correggi l'unica parola che il modello ha frainteso e premi Enter quando sei pronto. Qui la dettatura vocale è un aiuto alla scrittura, non un pilota automatico.

Il pulsante microfono si trova nella barra strumenti del composer. Durante la registrazione, una forma d'onda vocale dal vivo mostra il livello d'ingresso, poi il prompt trascritto appare nella bozza.
Perché dettare i tuoi prompt invece di digitarli
La velocità. Parli molto più in fretta di quanto digiti, e non perdi il filo cercando i tasti. Un prompt di due paragrafi che richiederebbe tre minuti per essere digitato è una dettatura vocale di trenta secondi. Su un'intera giornata passata a dare prompt ai tuoi agenti, quel tempo si traduce in ore recuperate.
La precisione. Poiché la dettatura non costa quasi nulla, dici di più. Descrivi il caso limite che avresti saltato, il file che non avresti nominato, il comportamento da evitare. Un prompt più ricco è un prompt più preciso, ed è esattamente ciò che fa centrare il task a un agente IA al primo tentativo.
L'economia dei token. Ogni scambio di chiarimento con un agente costa token : l'agente chiede, tu rispondi, lui rilegge il contesto. Un prompt dettato e preciso fin dall'inizio elimina questi scambi. Meno avanti e indietro significa meno token spesi per arrivare allo stesso risultato, un risparmio diretto sulla tua bolletta di IA.
Mani libere e mobile. Sul desktop tieni le mani libere mentre un agente lavora e detti a voce il prompt successivo. Sul telefono, la dettatura vocale è di gran lunga il modo più rapido per alimentare un agente senza lottare con una tastiera mobile. Detta l'idea, e arriva nel tuo agente sul Mac.
Come funziona la dettatura vocale
Clicca il microfono, detta, rileggi, invia. Quattro passi, nessuna app separata, nessun copia-incolla.
Clicca il microfono nel composer
Posiziona il cursore nel composer dell'agente e clicca il pulsante microfono nella barra strumenti. La prima volta, macOS chiede l'autorizzazione al microfono, AgentsRoom inoltra la richiesta al sistema così la concedi una sola volta.
Detta il tuo prompt
Il pulsante passa in registrazione : uno stato pulsante con una forma d'onda vocale dal vivo che mostra il livello d'ingresso in tempo reale, così sai che il microfono sta davvero catturando l'audio. Di' tutto ciò che il tuo agente deve sapere, nella tua lingua.
Fermati, e trascrive
Clicca di nuovo per fermarti. L'audio viene inviato al modello di trascrizione che hai scelto (GPT-4o Transcribe di default, GPT-4o mini Transcribe oppure OpenAI Whisper). Il pulsante mostra uno stato di trascrizione mentre il riconoscimento vocale è in corso.
La trascrizione arriva al tuo cursore
Il testo trascritto si inserisce nella bozza alla posizione del cursore, con uno spazio di separazione quando serve. La posizione del cursore viene ripristinata, così puoi continuare a digitare o dettare un altro pezzo. Digitazione e dettatura si mescolano liberamente nello stesso prompt.
Rileggi e correggi
Niente è ancora stato inviato. Il prompt resta nella bozza. Rileggilo, correggi la rara parola fraintesa, aggiungi una riga da tastiera, riordina una frase. Mantieni il pieno controllo di ciò che il tuo agente riceve davvero.
Invia quando sei pronto
Premi Enter per inviare il prompt al tuo agente, esattamente come un messaggio digitato. Dal punto di vista dell'agente è solo testo, quindi la dettatura vocale funziona allo stesso modo con Claude Code, Codex, Gemini CLI, OpenCode e Aider.
Prompt più rapidi, meno token
Perché dettare un prompt migliore fin dall'inizio costa meno che digitarne uno scarno e iterare.
Un prompt scarno costa caro in un modo che non si vede sull'orologio. L'agente non ha abbastanza elementi, quindi tira a indovinare, tu correggi, lui rilegge tutto il contesto, tu correggi ancora. Ognuno di questi giri sono token in ingresso, token in uscita e letture di cache. Tre scambi per chiarire una feature possono costare più della feature stessa.
La dettatura vocale ribalta l'equazione. Poiché parlare è veloce, carichi il contesto in anticipo : i vincoli, i percorsi dei file, il comportamento da evitare, l'esempio che hai in mente. L'agente centra il bersaglio più vicino al primo tentativo. Scambi trenta secondi di dettatura con due o tre cicli di chiarimento evitati.
E questo si accumula. Una giornata normale sono decine di prompt. Se la dettatura vocale risparmia uno scambio su una buona parte di essi, i token risparmiati si sommano sulla giornata, sul team, sul mese. Il token più economico è quello che non hai mai dovuto spendere per rispiegarti.
Ed è anche semplicemente meno attrito. Meno attrito significa che scrivi davvero il prompt più lungo e migliore invece della pigra battuta singola che avresti digitato perché digitare la versione completa sembrava troppo lavoro. La dettatura vocale rende facile il prompt buono.
Scegli il tuo modello di trascrizione e la tua lingua
Sul desktop, la dettatura vocale ti lascia scegliere il modello speech-to-text e la lingua parlata nelle impostazioni.
Modelli di trascrizione (desktop)
- GPT-4o Transcribe (default, migliore qualità multilingue)
- GPT-4o mini Transcribe (quasi altrettanto preciso, più economico)
- OpenAI Whisper, whisper-1 (tariffa al minuto semplice, solida base multilingue)
Lingue parlate
- Rilevamento automatico (default, il modello capisce la lingua)
- Italiano, English, Français, Español, Deutsch, Português
- Русский, 中文, 日本語, 한국어
- العربية, हिन्दी, Bahasa Indonesia, Polski, Türkçe, Tiếng Việt
Il rilevamento automatico è il default e gestisce la maggior parte dei casi. Forza una lingua specifica quando le registrazioni brevi vengono rilevate male, ma forza solo la lingua che stai effettivamente parlando. Sedici lingue più il rilevamento automatico, così detti con le tue parole e il tuo agente riceve un testo pulito.
Cosa fa davvero la dettatura vocale sotto il cofano
Sul desktop, il composer registra la tua voce con l'API del browser MediaRecorder e invia l'audio al backend di trascrizione di AgentsRoom. La trascrizione gira lato server sul modello che hai scelto, così il grosso del lavoro di speech-to-text non dipende dalla tua macchina, e il testo torna in chiaro, inserito al tuo cursore. Il microfono, la registrazione e l'inserimento fanno tutti parte dello stesso composer in cui già digiti.
Su mobile, la dettatura vocale funziona diversamente, di proposito. L'app companion usa il riconoscimento vocale on-device, così l'audio non lascia mai il telefono. Il testo riconosciuto viene poi inoltrato al desktop tramite la connessione cifrata end-to-end di AgentsRoom e depositato nell'input dell'agente che hai messo a fuoco sul Mac. Tieni premuto il microfono, parla, rilascia, e il testo appare nel tuo agente desktop.
Entrambe le superfici condividono una regola : la dettatura vocale non invia mai da sola. Sul desktop la trascrizione arriva nella bozza per la rilettura. Su mobile il testo viene incollato nell'input dell'agente a fuoco senza ritorno a capo, quindi sei tu a premere Enter. La dettatura serve a scrivere il prompt, non a lanciarlo alla cieca.
La configurazione è neutra rispetto al provider. Gli id dei modelli di trascrizione mappano il backend speech-to-text, non il CLI del tuo agente. Che il tuo agente sia Claude Code, Codex, Gemini CLI, OpenCode o Aider, il testo dettato è solo testo nel composer, quindi la dettatura vocale si comporta in modo identico su ogni provider supportato da AgentsRoom.
Dove funziona la dettatura vocale
Integrata nel composer desktop e nell'app companion mobile, in sedici lingue.
Composer desktop
Un pulsante microfono nel composer dell'agente su macOS. Trascrizione lato server su GPT-4o Transcribe, GPT-4o mini Transcribe o Whisper. Forma d'onda vocale dal vivo durante la registrazione, trascrizione inserita al cursore, libera di mescolarsi con la digitazione. Scegli il tuo modello e la tua lingua nelle impostazioni.
App companion mobile
Sul companion iOS e Android, tieni premuto il microfono per dettare. Il riconoscimento vocale gira on-device così l'audio resta sul telefono, e il testo riconosciuto viene inoltrato cifrato end-to-end all'agente desktop a fuoco. Il modo più rapido per alimentare un agente dalla tasca.
Multilingue
Sedici lingue parlate più il rilevamento automatico : inglese, francese, spagnolo, tedesco, italiano, portoghese, russo, cinese, giapponese, coreano, arabo, hindi, indonesiano, polacco, turco e vietnamita. Detta nella tua lingua, il tuo agente riceve un testo trascritto pulito.
Digitare i prompt vs dettarli
Stesso agente, stesso task. Velocità diversa, contesto diverso, bolletta di token diversa.
Digitare ogni prompt
- : Digiti a una frazione della velocità con cui parli, quindi i prompt restano corti.
- : I prompt corti saltano il contesto, così l'agente tira a indovinare e tu lo correggi.
- : Ogni correzione è un altro scambio, più token in ingresso e in uscita.
- : Una app di dettatura separata o la dettatura di sistema impongono il copia-incolla tra finestre.
- : Sul telefono, la tastiera mobile rende dolorosi i prompt lunghi, quindi non dai quasi più prompt.
Dettare con la dettatura vocale
- : Detti il prompt completo in pochi secondi, così dici naturalmente di più.
- : Più contesto in anticipo significa che l'agente centra il task più vicino al primo tentativo.
- : Meno scambi di chiarimento significa meno token spesi per lo stesso risultato.
- : Il microfono è nel composer, la trascrizione arriva nella bozza, nessun copia-incolla.
- : Sul telefono, tieni premuto il microfono e il testo appare nel tuo agente desktop tramite il relay cifrato.
La dettatura vocale è il modo più economico per rendere ogni prompt più lungo, più preciso e più rapido da scrivere, tutto in una volta.
Come suona un prompt dettato
Non devi scrivere niente di tutto questo. Lo dici a voce alta, lo speech-to-text lo trasforma nel prompt qui sotto, e premi Enter. Prova a dettare un prompt così dettagliato digitandolo e senti quanto tempo ci vuole.
Dettato al microfono
Aggiungi un rate limiter all'endpoint di login.
Usa una finestra scorrevole di cinque tentativi al minuto per IP.
Restituisci un 429 con un header Retry-After quando il limite viene raggiunto.
Lascia intatto il percorso di successo esistente.
Aggiungi un test unitario per il limite raggiunto e uno per il reset dopo un minuto.
Non toccare l'endpoint di registrazione.FAQ
Cos'è la dettatura vocale in AgentsRoom ?
La dettatura vocale è un pulsante microfono nel composer dell'agente che trasforma la tua voce in testo. Clicchi il microfono, detti il tuo prompt, e il testo trascritto si inserisce nella bozza al tuo cursore. È riconoscimento vocale integrato per scrivere prompt ai tuoi agenti IA, senza una app di dettatura separata e senza copia-incolla tra finestre.
Perché dettare i prompt invece di digitarli ?
Velocità, precisione ed economia dei token. Parli diverse volte più in fretta di quanto digiti, quindi i prompt richiedono secondi invece di minuti. Poiché dettare non costa quasi nulla, dici naturalmente di più, il che rende il prompt più preciso. Un prompt preciso significa meno scambi di chiarimento con l'agente, il che significa meno token spesi per arrivare allo stesso risultato.
Quali modelli di trascrizione posso usare ?
Sul desktop scegli tra tre modelli speech-to-text nelle impostazioni : GPT-4o Transcribe (il default, migliore qualità multilingue), GPT-4o mini Transcribe (quasi altrettanto preciso e più economico), e OpenAI Whisper, il modello whisper-1 con tariffa al minuto semplice e una solida base multilingue.
È solo OpenAI Whisper ?
Whisper è uno dei modelli che puoi scegliere, integrato direttamente nel composer invece di girare come app separata a lato. Puoi anche scegliere GPT-4o Transcribe o GPT-4o mini Transcribe. Il senso della dettatura vocale di AgentsRoom è che la dettatura punta direttamente all'input del prompt del tuo agente, quindi non detti in una finestra per fare copia-incolla in un'altra.
Quali lingue supporta la dettatura vocale ?
Sedici lingue parlate più il rilevamento automatico : inglese, francese, spagnolo, tedesco, italiano, portoghese, russo, cinese, giapponese, coreano, arabo, hindi, indonesiano, polacco, turco e vietnamita. Il rilevamento automatico è il default. Puoi forzare una lingua specifica nelle impostazioni quando le registrazioni brevi vengono rilevate male.
La mia voce viene inviata a un server ?
Dipende dalla superficie. Sul desktop, l'audio viene inviato al backend di trascrizione di AgentsRoom, che esegue lo speech-to-text sul modello che hai scelto e restituisce il testo. Su mobile, il riconoscimento vocale gira on-device, così l'audio non lascia mai il telefono e solo il testo riconosciuto viene inoltrato al desktop tramite la connessione cifrata end-to-end.
Il prompt viene inviato automaticamente dopo la dettatura ?
No. La dettatura vocale deposita sempre il testo nella bozza, mai nell'invio. Rileggi la trascrizione, correggi la rara parola fraintesa, aggiungi o riordina da tastiera se vuoi, e premi Enter quando sei pronto. Mantieni il controllo esatto di ciò che il tuo agente riceve.
Posso mescolare digitazione e dettatura nello stesso prompt ?
Sì. La trascrizione si inserisce al tuo cursore, non al posto dell'intera bozza. Così puoi digitare la prima metà, dettare un lungo paragrafo nel mezzo, poi digitare una riga finale. La dettatura vocale è un modo più rapido per riempire il composer, pienamente compatibile con la tastiera.
Posso dettare dal mio telefono a un agente sul mio Mac ?
Sì. L'app companion mobile ha un pulsante microfono : tienilo premuto, parla, rilascia. La voce viene riconosciuta on-device e il testo viene inoltrato cifrato end-to-end all'agente che hai messo a fuoco sul desktop. È il modo più rapido per inviare un prompt al tuo agente Mac senza usare una tastiera mobile.
La dettatura vocale funziona con Claude Code, Codex e Gemini ?
Sì, con tutti, più OpenCode e Aider. Il testo dettato è solo testo nel composer, e la configurazione di trascrizione è neutra rispetto al provider, quindi la dettatura vocale si comporta in modo identico qualunque sia il CLI dell'agente che fai girare.
Si abbina bene con
Scratchpad
Un editor di prompt più grande nel footer. Detta un brief lungo, raffinalo nello scratchpad, poi invialo al tuo agente.
Libreria di prompt
Salva i prompt che detti come modelli riutilizzabili. La voce scrive la prima stesura, la libreria conserva quelli buoni.
Sync mobile-desktop
Il collegamento cifrato end-to-end che trasporta il tuo testo dettato dal telefono all'agente a fuoco sul tuo Mac.
Controllo remoto degli agenti
Pilota i tuoi agenti desktop dal telefono. La dettatura è il modo più rapido per inviare loro un prompt lontano dalla tastiera.
Multi-provider
Fai girare Claude, Codex, Gemini, OpenCode e Aider fianco a fianco. La dettatura vocale funziona allo stesso modo su ciascuno di essi.
Sketch
Disegna e annota nel composer. Abbina un prompt dettato a uno schizzo rapido per dare al tuo agente sia le parole sia un'immagine.
Parla ai tuoi agenti, smetti di digitare i prompt
Scarica AgentsRoom e detta i tuoi prompt direttamente nel composer. Più rapidi da scrivere, più ricchi di contesto, più leggeri sui token. La dettatura vocale integrata nel tuo IDE di agenti IA, su desktop e su mobile.
App companion: monitora i tuoi agenti in movimento
Usa Claude, Codex, Gemini CLI o un altro provider IA.
Invia bug e richieste direttamente nel tuo backlog pubblico.
Uno sguardo ad AgentsRoom in azione.