Berhenti membaca terminal.
Bicaralah ke agen Anda.
Voice Mode adalah percakapan suara dua arah dengan agen koding AI yang sedang berjalan. Ketuk sekali, bicara giliran Anda, dan agen menjawab dengan suara natural. Tanpa mengetik prompt, tanpa menggulir dinding output terminal untuk tahu apa yang terjadi.
Aktifkan hands-free dan ia terus mendengarkan di antara jawaban, jadi Anda bisa mondar-mandir di ruangan, mengawasi build, atau menyeruput kopi sambil membahas rencana. Tanyakan sejauh mana refactor-nya, ia memberitahu Anda. Bilang jalankan tesnya lalu laporkan, ia melakukannya, lalu mengucapkan hasilnya.

Voice Mode beraksi : agen sedang mendengarkan, hands-free aktif, suara jawaban sudah dipilih, dan agen menjawab dengan suara di antara giliran Anda.
Inilah pergeseran yang dijawab Voice Mode. Agen Anda berjalan lebih lama dan melakukan lebih banyak hal sendiri : ia mengedit file, menjalankan perintah, menulis tes, memperbaiki apa yang ia rusakkan. Hambatannya bukan lagi menulis kode, melainkan tetap mengikuti saat agen bekerja. Membaca baris demi baris output terminal, atau mengetik satu prompt lagi untuk menanyakan apa yang sedang terjadi, menarik Anda kembali ke keyboard di setiap giliran.
Voice Mode mengubah loop itu menjadi percakapan. Anda bicara giliran Anda dengan suara, agen menjawab dengan suara. Anda mengajukan pertanyaan, memberi koreksi, menyetujui rencana, semuanya dengan suara, dan Anda mendengar jawabannya diucapkan dengan suara natural alih-alih mengurainya di layar. Inilah bedanya antara mengawasi sebuah proses dan berbicara dengan rekan satu tim.
Ini bukan hal yang sama dengan dikte suara. Dikte itu satu arah : Anda bicara, ia mentranskripsikan kata-kata Anda ke composer, dan Anda tetap membaca jawaban agen. Voice Mode itu dua arah : suara masuk, suara keluar, tukar balasan langsung. Dikte membantu Anda menulis prompt lebih cepat. Voice Mode memungkinkan Anda melewati keyboard dan layar sepenuhnya sambil menjaga agen tetap bergerak.
Kenapa berbicara ke agen Anda alih-alih mengetik dan membaca
Tetap mengikuti, hands-free. Agen yang andal bisa berjalan beberapa menit dari satu instruksi saja. Dengan Voice Mode dalam mode hands-free, Anda tetap terhubung sepanjang waktu tanpa duduk di depan keyboard. Minta status, arahkan langkah berikutnya, konfirmasi sebuah keputusan, semuanya saat Anda berdiri di papan tulis atau mengawasi aplikasi memuat ulang.
Tukar balasan yang natural. Mengetik prompt, menunggu, membaca output, mengetik lagi adalah loop yang patah-patah. Mengucapkan giliran Anda dan mendengar jawabannya adalah percakapan. Ini lebih cepat untuk giliran singkat (sebuah ya cepat, koreksi kecil, satu pertanyaan lagi) dan jauh lebih tidak melelahkan ketimbang membaca dinding teks terminal di setiap pembaruan.
Mata bebas, layar bebas. Mendengar jawaban agen berarti Anda tidak perlu melihat terminal untuk tahu apa yang ia lakukan. Lirik build Anda, tes Anda, desain Anda, atau tidak sama sekali, dan biarkan pembaruan lisan memberi tahu Anda di mana keadaannya. Agen yang menarasikan, Anda menjaga mata tetap di tempat pekerjaan sebenarnya.
Dengan kredit suara yang sama. Voice Mode memakai backend suara AgentsRoom, ucapan ke teks di arah masuk dan teks ke ucapan di arah keluar, mengambil dari saldo kredit suara yang sama dengan dikte. Satu saldo menggerakkan baik dikte prompt maupun percakapan lisan utuh, jadi tidak ada yang perlu disambungkan tambahan.
Cara kerja Voice Mode
Buka pada agen yang berjalan, bicara, dengarkan, ulangi. Loop lisan alih-alih ketik-dan-baca.
Buka Voice Mode pada agen yang berjalan
Voice Mode diluncurkan untuk agen yang sudah berjalan di terminalnya, dari composer agen itu. Ia butuh sesi aktif karena percakapan ini dengan agen spesifik tersebut, dalam konteksnya saat ini, bukan chat baru yang kosong.
Ketuk untuk bicara
Ketuk sekali dan bicara giliran Anda : sebuah pertanyaan, instruksi, koreksi. Statusnya berganti ke mendengarkan dengan indikator langsung, jadi Anda bisa melihat mikrofon sedang menangkap. Pilih hands-free agar ia terus mendengarkan di antara giliran, atau ketuk-untuk-bicara untuk satu giliran setiap kali.
Ia mentranskripsi dan mengirim ke agen
Saat Anda selesai, ucapan Anda ditranskripsi dan dikirim ke agen yang berjalan sebagai pesan Anda, persis seolah Anda mengetiknya. Statusnya melewati mentranskripsi lalu mengirim, jadi Anda selalu tahu di mana posisi giliran Anda dalam pipeline.
Agen bekerja
Agen memproses giliran Anda dalam sesinya sendiri : ia bisa membaca file, menjalankan perintah, mengedit kode, menjalankan tes, apa pun yang diminta pesan Anda. Voice Mode menampilkan status bekerja dengan nama agen selagi ia menjalankan tugas, sama seperti giliran biasa di terminal.
Dengar jawabannya diucapkan
Saat agen menjawab, jawabannya dibacakan dengan suara yang Anda pilih. Anda mendengar statusnya, hasilnya, pertanyaan berikutnya, tanpa membaca terminal. Sebuah bip opsional menandai batas antar giliran agar Anda tahu kapan giliran Anda lagi.
Ambil giliran berikutnya
Dalam hands-free, ia sudah mendengarkan lagi, jadi Anda tinggal terus bicara. Dalam ketuk-untuk-bicara, Anda ketuk untuk memulai giliran berikutnya. Percakapan berlanjut selama Anda mau, lalu Anda tutup Voice Mode dan agen tetap di tempat Anda meninggalkannya di terminal.
Hands-free, agar Anda tetap mengikuti tanpa keyboard
Inti Voice Mode bukan kebaruan. Ini soal mengimbangi agen yang cepat tanpa terikat ke meja Anda.
Agen koding modern melakukan banyak hal per giliran, dan jeda di antara giliran Anda adalah saat Anda biasanya kehilangan konteks : Anda menjauh, agen selesai, dan Anda kembali ke layar penuh output yang kini harus Anda baca. Voice Mode hands-free menutup celah itu. Agen memberi tahu Anda apa yang ia lakukan saat selesai, dengan suara, dan Anda menjawab tanpa harus duduk kembali.
Hands-free menjaga mikrofon tetap terbuka di antara giliran, jadi percakapan mengalir seperti panggilan telepon : Anda bicara, ia bekerja, ia berbicara, Anda bicara lagi. Lebih suka mengontrol tiap giliran ? Ketuk-untuk-bicara mengambil satu giliran setiap kali, praktis di ruangan berisik atau saat Anda hanya ingin sesekali menyela.
Isyarat bip adalah hal kecil yang penting dalam praktik. Saat Anda tidak melihat layar, bip singkat memberi tahu Anda bahwa agen selesai berbicara dan kini giliran Anda, jadi Anda tidak menyela atau menunggu dalam diam sambil bertanya-tanya apakah ia sudah selesai.
Inilah yang membuat Voice Mode berguna untuk kerja nyata, bukan sekadar demo. Ia dibuat untuk momen-momen ketika agen mengerjakan beban berat dan Anda ingin mengarahkan, memeriksa, dan menyetujui, sementara tangan dan mata Anda bebas untuk hal lainnya.
Pilih suara Anda, ikuti percakapannya
Voice Mode memberi Anda kontrol yang membuat percakapan lisan terasa nyaman, dan menunjukkan dengan tepat di mana posisi tiap giliran.
Suara dan isyarat
- Suara jawaban : alloy dan suara natural lainnya
- Hands-free : terus mendengarkan di antara giliran
- Ketuk-untuk-bicara : satu giliran setiap kali
- Isyarat bip : nada singkat menandai tiap batas giliran
- Bahasa otomatis : bicara dengan kata-kata Anda sendiri, ia mendeteksi bahasanya
Status percakapan
- Mendengarkan : mikrofon menangkap giliran Anda
- Mentranskripsi : ucapan Anda diubah menjadi teks
- Mengirim : pesan Anda menuju ke agen
- Bekerja : agen menjalankan tugas
- Berbicara : jawaban agen sedang dibacakan
Deteksi bahasa otomatis berarti Anda tidak perlu memilih bahasa untuk mulai bicara, dan status yang terlihat berarti Anda tidak pernah menebak-nebak apakah agen mendengar Anda, sedang bekerja, atau akan menjawab.
Apa yang sebenarnya Voice Mode lakukan di balik layar
Voice Mode adalah lapisan full duplex di atas sesi agen biasa. Saat giliran Anda, ia merekam suara Anda dan mengirim audionya ke backend AgentsRoom, yang menjalankan ucapan ke teks dan mengembalikan transkripnya. Transkrip itu disuntikkan ke agen yang berjalan sebagai pesan Anda, jadi dari sudut pandang agen ini hanyalah satu giliran lagi dalam percakapan yang sudah ia jalani dengan Anda.
Saat giliran agen, jawaban tekstualnya dikirim balik ke backend AgentsRoom untuk teks ke ucapan dalam suara yang Anda pilih, dan audio hasilnya diputar untuk Anda. Ucapan ke teks di arah masuk, teks ke ucapan di arah keluar, dengan kerja nyata agen terjadi di antaranya. Itulah kenapa Voice Mode butuh akun dan agen yang berjalan : backend suara memproksikan model ucapan dan percakapannya terikat ke sesi aktif.
Karena agen hanya pernah melihat teks, Voice Mode netral terhadap provider sejak desainnya. Entah agennya Claude Code, Codex, Gemini CLI, OpenCode, atau Aider, giliran Anda yang ditranskripsi tiba sebagai pesan dan jawabannya diucapkan dengan cara yang sama. Tidak ada bagian di lapisan suara yang bergantung pada CLI mana yang berjalan di bawahnya.
Voice Mode dan Dikte Suara berbagi saldo kredit suara yang sama, karena keduanya bersandar pada backend ucapan yang sama. Dikte menghabiskan kredit untuk mentranskripsi satu arah; Voice Mode menghabiskannya pada perjalanan bolak-balik transkripsi plus jawaban lisan, yang terbuka sifatnya karena sebuah percakapan bisa berjalan selama Anda terus bicara.
Di mana Voice Mode bekerja
Percakapan lisan dua arah dengan agen desktop yang berjalan, suara masuk dan suara keluar.
Desktop, pada agen aktif
Voice Mode berjalan di macOS, diluncurkan dari composer agen yang sudah berjalan. Ia berbicara ke agen spesifik itu dalam sesinya saat ini, jadi percakapannya memiliki konteks penuh yang telah dibangun agen, bukan halaman kosong.
Suara masuk
Giliran Anda ditangkap mikrofon dan ditranskripsi oleh backend suara AgentsRoom, lalu dikirim ke agen sebagai pesan Anda. Hands-free menjaga mikrofon tetap terbuka di antara giliran; ketuk-untuk-bicara mengambil satu giliran setiap kali. Bahasa terdeteksi otomatis.
Suara keluar
Jawaban agen dibacakan dengan teks ke ucapan dalam suara yang Anda pilih (alloy dan lainnya). Sebuah bip opsional menandai akhir tiap jawaban lisan agar Anda tahu giliran Anda, bahkan saat Anda tidak melihat layar.
Dikte suara vs Voice Mode
Keduanya memakai suara Anda. Yang satu menulis prompt untuk Anda, yang lain mengadakan percakapan.
Dikte suara (satu arah)
- : Anda bicara, ia mentranskripsi kata-kata Anda ke composer.
- : Anda tetap membaca sendiri jawaban agen di layar.
- : Bagus untuk menulis prompt panjang dan presisi dengan cepat.
- : Anda tetap di keyboard untuk mengirim dan untuk membaca hasilnya.
- : Satu arah : suara masuk, teks di draf, selanjutnya terserah Anda.
Voice Mode (dua arah)
- : Anda bicara giliran Anda, agen menjawab dengan suara.
- : Anda mendengar jawabannya, tidak perlu membaca terminal.
- : Bagus untuk mengarahkan dan memeriksa selagi agen bekerja.
- : Hands-free menjaga percakapan tetap berjalan tanpa keyboard.
- : Kedua arah : suara masuk, agen bekerja, suara keluar.
Pakai dikte untuk menulis prompt yang bagus dalam hitungan detik, dan Voice Mode untuk berbicara dengan agen selagi ia menjalankannya.
Seperti apa bunyi satu giliran lisan
Anda tidak mengetik satu pun dari ini. Anda mengucapkan giliran Anda, agen mengerjakannya, dan ia membalas dengan suara. Berikut satu ronde percakapan Voice Mode.
Satu ronde percakapan
Anda: Sejauh mana kita pada refactor login?
Agen: Rate limiter-nya sudah masuk dan jalur sukses tidak tersentuh. Dua tes masih merah.
Anda: Perbaiki dua tes yang gagal, lalu jalankan seluruh suite dan beri tahu saya jumlahnya.
Agen: Selesai. Keduanya lolos sekarang. Suite penuh: 142 lolos, 0 gagal.
Anda: Bagus. Commit dengan pesan singkat dan berhenti di situ.FAQ
Apa itu Voice Mode di AgentsRoom ?
Voice Mode adalah percakapan suara dua arah dengan agen koding AI yang berjalan. Anda mengetuk dan bicara giliran Anda, ucapan Anda ditranskripsi dan dikirim ke agen, agen mengerjakannya, dan jawabannya dibacakan kembali kepada Anda dengan suara natural. Ia memungkinkan Anda berbicara dengan agen dan mendengar jawabannya alih-alih mengetik prompt dan membaca output terminal.
Apa bedanya Voice Mode dengan dikte suara ?
Dikte suara itu satu arah : Anda bicara dan kata-kata Anda ditranskripsi ke composer sebagai prompt, lalu Anda membaca jawaban agen di layar. Voice Mode itu dua arah : Anda bicara giliran Anda dan agen menjawab dengan suara, tukar balasan lisan secara langsung. Dikte membantu Anda menulis prompt lebih cepat; Voice Mode memungkinkan Anda mengadakan percakapan hands-free selagi agen bekerja.
Apakah agennya benar-benar menjawab dengan suara ?
Ya. Jawaban agen diubah menjadi ucapan dengan teks ke ucapan dan diputar dengan suara yang Anda pilih. Anda mendengar statusnya, hasilnya, dan pertanyaan berikutnya, jadi Anda tidak perlu membaca terminal untuk tahu apa yang agen lakukan.
Apa itu mode hands-free ?
Hands-free menjaga mikrofon tetap terbuka di antara giliran, jadi percakapan mengalir seperti panggilan telepon : Anda bicara, agen bekerja, ia berbicara, dan ia sudah mendengarkan giliran Anda berikutnya. Jika Anda lebih suka mengontrol tiap giliran, ketuk-untuk-bicara mengambil satu giliran setiap kali, praktis di ruangan berisik.
Bisakah saya memilih suaranya ?
Ya. Anda memilih suara jawaban (alloy dan suara lainnya) yang dipakai untuk jawaban lisan agen. Anda juga bisa mengaktifkan isyarat bip opsional, yang memainkan nada singkat di batas antar giliran agar Anda tahu kapan agen selesai berbicara dan kini giliran Anda.
Bahasa apa saja yang didukung Voice Mode ?
Voice Mode mendeteksi otomatis bahasa yang Anda ucapkan, jadi Anda bisa bicara dengan kata-kata Anda sendiri tanpa memilih bahasa lebih dulu. Transkripsinya ditangani oleh backend suara AgentsRoom, tumpukan ucapan yang sama dengan yang dipakai untuk dikte.
Apakah saya butuh akun dan agen yang berjalan ?
Ya untuk keduanya. Voice Mode butuh akun yang masuk karena backend suara memproksikan model ucapan dan mengambil dari kredit suara Anda, dan ia butuh agen yang sudah berjalan, karena percakapan terikat ke sesi aktif itu dan memakai konteksnya saat ini.
Apakah Voice Mode memakai kredit ?
Ya. Voice Mode berjalan pada saldo kredit suara yang sama dengan dikte. Dikte menghabiskan kredit untuk mentranskripsi ucapan Anda satu arah; Voice Mode menghabiskannya pada perjalanan bolak-balik penuh berupa transkripsi plus jawaban lisan, yang terbuka sifatnya karena sebuah percakapan bisa berjalan selama Anda terus bicara.
Apakah tersedia di demo web langsung ?
Tidak. Demo web publik memalsukan backend, jadi percakapan suara real-time tidak bisa berjalan di sana. Mengklik Voice Mode di demo menampilkan pemberitahuan yang mengajak Anda mengunduh AgentsRoom, tempat Voice Mode berbicara ke agen nyata Anda.
Apakah Voice Mode bekerja dengan Claude Code, Codex, dan Gemini ?
Ya, dengan semuanya, plus OpenCode dan Aider. Agen hanya pernah melihat teks, jadi giliran lisan Anda tiba sebagai pesan dan jawabannya diucapkan dengan cara yang sama, tidak peduli CLI agen mana yang berjalan di bawahnya.
Cocok dipadukan dengan
Dikte Suara
Saudara satu arah dari Voice Mode. Diktekan prompt panjang dan presisi ke composer dengan suara, lalu bicaralah dengan agen selagi ia menjalankannya.
Kontrol Agen Jarak Jauh
Kendalikan agen desktop Anda dari ponsel. Suara adalah cara paling natural untuk mengimbangi agen saat Anda jauh dari keyboard.
Sinkronisasi Mobile-Desktop
Tautan terenkripsi ujung-ke-ujung antara ponsel dan agen desktop Anda, agar Anda tetap terhubung dengan apa yang berjalan di Mac Anda.
Status Agen
Lihat siapa yang bekerja, siapa yang selesai, siapa yang macet dalam sekejap. Voice Mode memungkinkan Anda menanyakan status itu ke agen yang bekerja dengan suara.
Multi-Penyedia
Jalankan Claude, Codex, Gemini, OpenCode, dan Aider berdampingan. Voice Mode berbicara ke mana pun di antaranya dengan cara yang sama.
Scratchpad
Editor yang lebih besar di footer untuk catatan dan brief yang lebih panjang. Padukan dengan suara saat sebuah giliran terlalu panjang atau terlalu presisi untuk diucapkan.
Bicara ke agen Anda, dengar mereka menjawab
Unduh AgentsRoom dan buka Voice Mode pada agen yang berjalan. Bicara giliran Anda, dengar jawabannya, dan tetap mengikuti secara hands-free selagi agen mengerjakan tugasnya. Percakapan suara dua arah yang terpasang di IDE koding AI Anda.
Aplikasi pendamping: pantau agen Anda saat bepergian
Gunakan Claude, Codex, Gemini CLI, atau penyedia AI lainnya.
Kirim bug dan permintaan langsung ke backlog publik Anda.
Sekilas AgentsRoom dalam aksi.