Voice Mode : bicara ke agen Anda, dengar mereka menjawab

Berhenti membaca terminal.
Bicaralah ke agen Anda.

Voice Mode adalah percakapan suara dua arah dengan agen koding AI yang sedang berjalan. Ketuk sekali, bicara giliran Anda, dan agen menjawab dengan suara natural. Tanpa mengetik prompt, tanpa menggulir dinding output terminal untuk tahu apa yang terjadi.

Aktifkan hands-free dan ia terus mendengarkan di antara jawaban, jadi Anda bisa mondar-mandir di ruangan, mengawasi build, atau menyeruput kopi sambil membahas rencana. Tanyakan sejauh mana refactor-nya, ia memberitahu Anda. Bilang jalankan tesnya lalu laporkan, ia melakukannya, lalu mengucapkan hasilnya.

Unduh AgentsRoom Lihat cara kerja Voice Mode

Voice Mode AgentsRoom : percakapan suara dua arah dengan agen koding AI, status mendengarkan dengan indikator langsung, sakelar hands-free, isyarat bip, suara jawaban yang bisa dipilih, dan deteksi bahasa otomatis

Voice Mode beraksi : agen sedang mendengarkan, hands-free aktif, suara jawaban sudah dipilih, dan agen menjawab dengan suara di antara giliran Anda.

Inilah pergeseran yang dijawab Voice Mode. Agen Anda berjalan lebih lama dan melakukan lebih banyak hal sendiri : ia mengedit file, menjalankan perintah, menulis tes, memperbaiki apa yang ia rusakkan. Hambatannya bukan lagi menulis kode, melainkan tetap mengikuti saat agen bekerja. Membaca baris demi baris output terminal, atau mengetik satu prompt lagi untuk menanyakan apa yang sedang terjadi, menarik Anda kembali ke keyboard di setiap giliran.

Voice Mode mengubah loop itu menjadi percakapan. Anda bicara giliran Anda dengan suara, agen menjawab dengan suara. Anda mengajukan pertanyaan, memberi koreksi, menyetujui rencana, semuanya dengan suara, dan Anda mendengar jawabannya diucapkan dengan suara natural alih-alih mengurainya di layar. Inilah bedanya antara mengawasi sebuah proses dan berbicara dengan rekan satu tim.

Ini bukan hal yang sama dengan dikte suara. Dikte itu satu arah : Anda bicara, ia mentranskripsikan kata-kata Anda ke composer, dan Anda tetap membaca jawaban agen. Voice Mode itu dua arah : suara masuk, suara keluar, tukar balasan langsung. Dikte membantu Anda menulis prompt lebih cepat. Voice Mode memungkinkan Anda melewati keyboard dan layar sepenuhnya sambil menjaga agen tetap bergerak.

Kenapa berbicara ke agen Anda alih-alih mengetik dan membaca

Tetap mengikuti, hands-free. Agen yang andal bisa berjalan beberapa menit dari satu instruksi saja. Dengan Voice Mode dalam mode hands-free, Anda tetap terhubung sepanjang waktu tanpa duduk di depan keyboard. Minta status, arahkan langkah berikutnya, konfirmasi sebuah keputusan, semuanya saat Anda berdiri di papan tulis atau mengawasi aplikasi memuat ulang.

Tukar balasan yang natural. Mengetik prompt, menunggu, membaca output, mengetik lagi adalah loop yang patah-patah. Mengucapkan giliran Anda dan mendengar jawabannya adalah percakapan. Ini lebih cepat untuk giliran singkat (sebuah ya cepat, koreksi kecil, satu pertanyaan lagi) dan jauh lebih tidak melelahkan ketimbang membaca dinding teks terminal di setiap pembaruan.

Mata bebas, layar bebas. Mendengar jawaban agen berarti Anda tidak perlu melihat terminal untuk tahu apa yang ia lakukan. Lirik build Anda, tes Anda, desain Anda, atau tidak sama sekali, dan biarkan pembaruan lisan memberi tahu Anda di mana keadaannya. Agen yang menarasikan, Anda menjaga mata tetap di tempat pekerjaan sebenarnya.

Dengan kredit suara yang sama. Voice Mode memakai backend suara AgentsRoom, ucapan ke teks di arah masuk dan teks ke ucapan di arah keluar, mengambil dari saldo kredit suara yang sama dengan dikte. Satu saldo menggerakkan baik dikte prompt maupun percakapan lisan utuh, jadi tidak ada yang perlu disambungkan tambahan.

Cara kerja Voice Mode

Buka pada agen yang berjalan, bicara, dengarkan, ulangi. Loop lisan alih-alih ketik-dan-baca.

Buka Voice Mode pada agen yang berjalan

Voice Mode diluncurkan untuk agen yang sudah berjalan di terminalnya, dari composer agen itu. Ia butuh sesi aktif karena percakapan ini dengan agen spesifik tersebut, dalam konteksnya saat ini, bukan chat baru yang kosong.

Ketuk untuk bicara

Ketuk sekali dan bicara giliran Anda : sebuah pertanyaan, instruksi, koreksi. Statusnya berganti ke mendengarkan dengan indikator langsung, jadi Anda bisa melihat mikrofon sedang menangkap. Pilih hands-free agar ia terus mendengarkan di antara giliran, atau ketuk-untuk-bicara untuk satu giliran setiap kali.

Ia mentranskripsi dan mengirim ke agen

Saat Anda selesai, ucapan Anda ditranskripsi dan dikirim ke agen yang berjalan sebagai pesan Anda, persis seolah Anda mengetiknya. Statusnya melewati mentranskripsi lalu mengirim, jadi Anda selalu tahu di mana posisi giliran Anda dalam pipeline.

Agen bekerja

Agen memproses giliran Anda dalam sesinya sendiri : ia bisa membaca file, menjalankan perintah, mengedit kode, menjalankan tes, apa pun yang diminta pesan Anda. Voice Mode menampilkan status bekerja dengan nama agen selagi ia menjalankan tugas, sama seperti giliran biasa di terminal.

Dengar jawabannya diucapkan

Saat agen menjawab, jawabannya dibacakan dengan suara yang Anda pilih. Anda mendengar statusnya, hasilnya, pertanyaan berikutnya, tanpa membaca terminal. Sebuah bip opsional menandai batas antar giliran agar Anda tahu kapan giliran Anda lagi.

Ambil giliran berikutnya

Dalam hands-free, ia sudah mendengarkan lagi, jadi Anda tinggal terus bicara. Dalam ketuk-untuk-bicara, Anda ketuk untuk memulai giliran berikutnya. Percakapan berlanjut selama Anda mau, lalu Anda tutup Voice Mode dan agen tetap di tempat Anda meninggalkannya di terminal.

Hands-free, agar Anda tetap mengikuti tanpa keyboard

Inti Voice Mode bukan kebaruan. Ini soal mengimbangi agen yang cepat tanpa terikat ke meja Anda.

Agen koding modern melakukan banyak hal per giliran, dan jeda di antara giliran Anda adalah saat Anda biasanya kehilangan konteks : Anda menjauh, agen selesai, dan Anda kembali ke layar penuh output yang kini harus Anda baca. Voice Mode hands-free menutup celah itu. Agen memberi tahu Anda apa yang ia lakukan saat selesai, dengan suara, dan Anda menjawab tanpa harus duduk kembali.

Hands-free menjaga mikrofon tetap terbuka di antara giliran, jadi percakapan mengalir seperti panggilan telepon : Anda bicara, ia bekerja, ia berbicara, Anda bicara lagi. Lebih suka mengontrol tiap giliran ? Ketuk-untuk-bicara mengambil satu giliran setiap kali, praktis di ruangan berisik atau saat Anda hanya ingin sesekali menyela.

Isyarat bip adalah hal kecil yang penting dalam praktik. Saat Anda tidak melihat layar, bip singkat memberi tahu Anda bahwa agen selesai berbicara dan kini giliran Anda, jadi Anda tidak menyela atau menunggu dalam diam sambil bertanya-tanya apakah ia sudah selesai.

Inilah yang membuat Voice Mode berguna untuk kerja nyata, bukan sekadar demo. Ia dibuat untuk momen-momen ketika agen mengerjakan beban berat dan Anda ingin mengarahkan, memeriksa, dan menyetujui, sementara tangan dan mata Anda bebas untuk hal lainnya.

Pilih suara Anda, ikuti percakapannya

Voice Mode memberi Anda kontrol yang membuat percakapan lisan terasa nyaman, dan menunjukkan dengan tepat di mana posisi tiap giliran.

Suara dan isyarat

Suara jawaban : alloy dan suara natural lainnya
Hands-free : terus mendengarkan di antara giliran
Ketuk-untuk-bicara : satu giliran setiap kali
Isyarat bip : nada singkat menandai tiap batas giliran
Bahasa otomatis : bicara dengan kata-kata Anda sendiri, ia mendeteksi bahasanya

Status percakapan

Mendengarkan : mikrofon menangkap giliran Anda
Mentranskripsi : ucapan Anda diubah menjadi teks
Mengirim : pesan Anda menuju ke agen
Bekerja : agen menjalankan tugas
Berbicara : jawaban agen sedang dibacakan

Deteksi bahasa otomatis berarti Anda tidak perlu memilih bahasa untuk mulai bicara, dan status yang terlihat berarti Anda tidak pernah menebak-nebak apakah agen mendengar Anda, sedang bekerja, atau akan menjawab.

Apa yang sebenarnya Voice Mode lakukan di balik layar

Voice Mode adalah lapisan full duplex di atas sesi agen biasa. Saat giliran Anda, ia merekam suara Anda dan mengirim audionya ke backend AgentsRoom, yang menjalankan ucapan ke teks dan mengembalikan transkripnya. Transkrip itu disuntikkan ke agen yang berjalan sebagai pesan Anda, jadi dari sudut pandang agen ini hanyalah satu giliran lagi dalam percakapan yang sudah ia jalani dengan Anda.

Saat giliran agen, jawaban tekstualnya dikirim balik ke backend AgentsRoom untuk teks ke ucapan dalam suara yang Anda pilih, dan audio hasilnya diputar untuk Anda. Ucapan ke teks di arah masuk, teks ke ucapan di arah keluar, dengan kerja nyata agen terjadi di antaranya. Itulah kenapa Voice Mode butuh akun dan agen yang berjalan : backend suara memproksikan model ucapan dan percakapannya terikat ke sesi aktif.

Karena agen hanya pernah melihat teks, Voice Mode netral terhadap provider sejak desainnya. Entah agennya Claude Code, Codex, Antigravity CLI, OpenCode, Aider, Grok Build, Mistral Vibe, atau Kimi Code, giliran Anda yang ditranskripsi tiba sebagai pesan dan jawabannya diucapkan dengan cara yang sama. Tidak ada bagian di lapisan suara yang bergantung pada CLI mana yang berjalan di bawahnya.

Voice Mode dan Dikte Suara berbagi saldo kredit suara yang sama, karena keduanya bersandar pada backend ucapan yang sama. Dikte menghabiskan kredit untuk mentranskripsi satu arah; Voice Mode menghabiskannya pada perjalanan bolak-balik transkripsi plus jawaban lisan, yang terbuka sifatnya karena sebuah percakapan bisa berjalan selama Anda terus bicara.

Di mana Voice Mode bekerja

Percakapan lisan dua arah dengan agen desktop yang berjalan, suara masuk dan suara keluar.

Desktop, pada agen aktif

Voice Mode berjalan di macOS, diluncurkan dari composer agen yang sudah berjalan. Ia berbicara ke agen spesifik itu dalam sesinya saat ini, jadi percakapannya memiliki konteks penuh yang telah dibangun agen, bukan halaman kosong.

Suara masuk

Giliran Anda ditangkap mikrofon dan ditranskripsi oleh backend suara AgentsRoom, lalu dikirim ke agen sebagai pesan Anda. Hands-free menjaga mikrofon tetap terbuka di antara giliran; ketuk-untuk-bicara mengambil satu giliran setiap kali. Bahasa terdeteksi otomatis.

Suara keluar

Jawaban agen dibacakan dengan teks ke ucapan dalam suara yang Anda pilih (alloy dan lainnya). Sebuah bip opsional menandai akhir tiap jawaban lisan agar Anda tahu giliran Anda, bahkan saat Anda tidak melihat layar.

Dikte suara vs Voice Mode

Keduanya memakai suara Anda. Yang satu menulis prompt untuk Anda, yang lain mengadakan percakapan.

Dikte suara (satu arah)

: Anda bicara, ia mentranskripsi kata-kata Anda ke composer.
: Anda tetap membaca sendiri jawaban agen di layar.
: Bagus untuk menulis prompt panjang dan presisi dengan cepat.
: Anda tetap di keyboard untuk mengirim dan untuk membaca hasilnya.
: Satu arah : suara masuk, teks di draf, selanjutnya terserah Anda.

Voice Mode (dua arah)

: Anda bicara giliran Anda, agen menjawab dengan suara.
: Anda mendengar jawabannya, tidak perlu membaca terminal.
: Bagus untuk mengarahkan dan memeriksa selagi agen bekerja.
: Hands-free menjaga percakapan tetap berjalan tanpa keyboard.
: Kedua arah : suara masuk, agen bekerja, suara keluar.

Pakai dikte untuk menulis prompt yang bagus dalam hitungan detik, dan Voice Mode untuk berbicara dengan agen selagi ia menjalankannya.

Seperti apa bunyi satu giliran lisan

Anda tidak mengetik satu pun dari ini. Anda mengucapkan giliran Anda, agen mengerjakannya, dan ia membalas dengan suara. Berikut satu ronde percakapan Voice Mode.

Satu ronde percakapan

Anda: Sejauh mana kita pada refactor login?
Agen: Rate limiter-nya sudah masuk dan jalur sukses tidak tersentuh. Dua tes masih merah.
Anda: Perbaiki dua tes yang gagal, lalu jalankan seluruh suite dan beri tahu saya jumlahnya.
Agen: Selesai. Keduanya lolos sekarang. Suite penuh: 142 lolos, 0 gagal.
Anda: Bagus. Commit dengan pesan singkat dan berhenti di situ.

Anda memulai setiap giliran

Voice Mode tidak bertindak sendiri. Anda mengetuk atau bicara untuk mengambil giliran, dan agen hanya melakukan apa yang diminta pesan lisan Anda. Ketuk-untuk-bicara memberi Anda kontrol giliran demi giliran; hands-free hanya mendengarkan selama Voice Mode terbuka.

Akun dan agen aktif

Voice Mode butuh akun yang masuk, karena backend suara memproksikan model ucapan dan menagih kredit suara, serta agen yang berjalan, karena percakapan terikat ke sesi aktif itu dan konteksnya.

Bekerja dengan setiap agen

Agen hanya melihat teks, jadi Voice Mode berperilaku sama dengan Claude Code, Codex, Antigravity CLI, OpenCode, Aider, Grok Build, Mistral Vibe, dan Kimi Code. Lapisan suara membungkus sesi dan tidak pernah bergantung pada CLI mana yang ada di bawahnya.

FAQ

Apa itu Voice Mode di AgentsRoom ?

Voice Mode adalah percakapan suara dua arah dengan agen koding AI yang berjalan. Anda mengetuk dan bicara giliran Anda, ucapan Anda ditranskripsi dan dikirim ke agen, agen mengerjakannya, dan jawabannya dibacakan kembali kepada Anda dengan suara natural. Ia memungkinkan Anda berbicara dengan agen dan mendengar jawabannya alih-alih mengetik prompt dan membaca output terminal.

Apa bedanya Voice Mode dengan dikte suara ?

Dikte suara itu satu arah : Anda bicara dan kata-kata Anda ditranskripsi ke composer sebagai prompt, lalu Anda membaca jawaban agen di layar. Voice Mode itu dua arah : Anda bicara giliran Anda dan agen menjawab dengan suara, tukar balasan lisan secara langsung. Dikte membantu Anda menulis prompt lebih cepat; Voice Mode memungkinkan Anda mengadakan percakapan hands-free selagi agen bekerja.

Apakah agennya benar-benar menjawab dengan suara ?

Ya. Jawaban agen diubah menjadi ucapan dengan teks ke ucapan dan diputar dengan suara yang Anda pilih. Anda mendengar statusnya, hasilnya, dan pertanyaan berikutnya, jadi Anda tidak perlu membaca terminal untuk tahu apa yang agen lakukan.

Apa itu mode hands-free ?

Hands-free menjaga mikrofon tetap terbuka di antara giliran, jadi percakapan mengalir seperti panggilan telepon : Anda bicara, agen bekerja, ia berbicara, dan ia sudah mendengarkan giliran Anda berikutnya. Jika Anda lebih suka mengontrol tiap giliran, ketuk-untuk-bicara mengambil satu giliran setiap kali, praktis di ruangan berisik.

Bisakah saya memilih suaranya ?

Ya. Anda memilih suara jawaban (alloy dan suara lainnya) yang dipakai untuk jawaban lisan agen. Anda juga bisa mengaktifkan isyarat bip opsional, yang memainkan nada singkat di batas antar giliran agar Anda tahu kapan agen selesai berbicara dan kini giliran Anda.

Bahasa apa saja yang didukung Voice Mode ?

Voice Mode mendeteksi otomatis bahasa yang Anda ucapkan, jadi Anda bisa bicara dengan kata-kata Anda sendiri tanpa memilih bahasa lebih dulu. Transkripsinya ditangani oleh backend suara AgentsRoom, tumpukan ucapan yang sama dengan yang dipakai untuk dikte.

Apakah saya butuh akun dan agen yang berjalan ?

Ya untuk keduanya. Voice Mode butuh akun yang masuk karena backend suara memproksikan model ucapan dan mengambil dari kredit suara Anda, dan ia butuh agen yang sudah berjalan, karena percakapan terikat ke sesi aktif itu dan memakai konteksnya saat ini.

Apakah Voice Mode memakai kredit ?

Ya. Voice Mode berjalan pada saldo kredit suara yang sama dengan dikte. Dikte menghabiskan kredit untuk mentranskripsi ucapan Anda satu arah; Voice Mode menghabiskannya pada perjalanan bolak-balik penuh berupa transkripsi plus jawaban lisan, yang terbuka sifatnya karena sebuah percakapan bisa berjalan selama Anda terus bicara.

Apakah tersedia di demo web langsung ?

Tidak. Demo web publik memalsukan backend, jadi percakapan suara real-time tidak bisa berjalan di sana. Mengklik Voice Mode di demo menampilkan pemberitahuan yang mengajak Anda mengunduh AgentsRoom, tempat Voice Mode berbicara ke agen nyata Anda.

Apakah Voice Mode bekerja dengan Claude Code, Codex, dan Antigravity ?

Ya, dengan semuanya, plus OpenCode, Aider, Grok Build, Mistral Vibe dan Kimi Code. Agen hanya pernah melihat teks, jadi giliran lisan Anda tiba sebagai pesan dan jawabannya diucapkan dengan cara yang sama, tidak peduli CLI agen mana yang berjalan di bawahnya.

Cocok dipadukan dengan

Dikte Suara

Saudara satu arah dari Voice Mode. Diktekan prompt panjang dan presisi ke composer dengan suara, lalu bicaralah dengan agen selagi ia menjalankannya.

Kontrol Agen Jarak Jauh

Kendalikan agen desktop Anda dari ponsel. Suara adalah cara paling natural untuk mengimbangi agen saat Anda jauh dari keyboard.

Sinkronisasi Mobile-Desktop

Tautan terenkripsi ujung-ke-ujung antara ponsel dan agen desktop Anda, agar Anda tetap terhubung dengan apa yang berjalan di Mac Anda.

Status Agen

Lihat siapa yang bekerja, siapa yang selesai, siapa yang macet dalam sekejap. Voice Mode memungkinkan Anda menanyakan status itu ke agen yang bekerja dengan suara.

Multi-Penyedia

Jalankan Claude, Codex, Antigravity, OpenCode, Aider, Grok Build, Mistral Vibe, dan Kimi Code berdampingan. Voice Mode berbicara ke mana pun di antaranya dengan cara yang sama.

Scratchpad

Editor yang lebih besar di footer untuk catatan dan brief yang lebih panjang. Padukan dengan suara saat sebuah giliran terlalu panjang atau terlalu presisi untuk diucapkan.

Bicara ke agen Anda, dengar mereka menjawab

Unduh AgentsRoom dan buka Voice Mode pada agen yang berjalan. Bicara giliran Anda, dengar jawabannya, dan tetap mengikuti secara hands-free selagi agen mengerjakan tugasnya. Percakapan suara dua arah yang terpasang di IDE koding AI Anda.

GratisUnduh AgentsRoom

Aplikasi pendamping: pantau agen Anda saat bepergian

Gunakan Claude, Codex, Antigravity CLI, atau penyedia AI lainnya.

Dapatkan ekstensi

Chrome Web Store

Kirim bug dan permintaan langsung ke backlog publik Anda.

Sekilas AgentsRoom dalam aksi.

Beberapa proyek

Multi-penyedia

Beberapa agen

Status langsung

File diff & commit

Pendamping mobile

Pratinjau langsung

Tim agen

Otomatisasi browser

Dev berbasis backlog

Pustaka prompt

Pustaka skill

Lihat semua fitur

Berhenti membaca terminal.Bicaralah ke agen Anda.