Voice Mode : エージェントと話し、声の返事を聞く

terminal を読むのはもうやめましょう。
エージェントと話すのです。

Voice Mode は、動いている AIコーディングエージェントとの双方向の音声会話です。一度タップして自分の番を話すと、エージェントが自然な声で返します。プロンプトをタイプする必要も、何が起きたかを知るために terminal の出力の壁をスクロールする必要もありません。

ハンズフリーをオンにすると返答のあいだも聞き続けるので、部屋を歩き回りながら、build を眺めながら、コーヒーをすすりながら計画を話し合えます。refactor がどこまで進んだか尋ねれば、答えてくれます。テストを走らせて報告してと言えば、実行してから結果を声で告げます。

AgentsRoom の Voice Mode : AIコーディングエージェントとの双方向の音声会話、ライブインジケーター付きの聞き取り状態、ハンズフリーの切り替え、ビープ音、選べる返答の声、言語の自動検出

Voice Mode 実演 : エージェントは聞き取り中、ハンズフリーはオン、返答の声は設定済み、エージェントはあなたの番のあいだに声で返します。

Voice Mode が応える変化はこうです。あなたのエージェントは以前より長く動き、より多くを自力でこなします : ファイルを編集し、コマンドを走らせ、テストを書き、壊したものを直します。ボトルネックはもうコードを書くことではなく、エージェントが働くあいだ流れの中に居続けることです。terminal の出力を一行また一行と読むこと、あるいは何が起きているか尋ねるためにまたプロンプトをタイプすることが、毎回あなたをキーボードへ引き戻します。

Voice Mode はそのループを会話に変えます。あなたが自分の番を声に出し、エージェントが声で返します。質問し、訂正し、計画を承認する、すべて声で。そして返答を画面で読み解く代わりに、自然な声で読み上げられて聞こえます。これはプロセスを監視することと、チームメイトと話すことの違いです。

これは音声ディクテーションと同じではありません。ディクテーションは一方向です : あなたが話し、それが言葉を composer に文字起こしし、エージェントの返答はあなたが読みます。Voice Mode は双方向です : 音声が入り、音声が出る、生のやり取り。ディクテーションはプロンプトをより速く書く助けになります。Voice Mode はエージェントを動かし続けながら、キーボードと画面を丸ごと手放させてくれます。

タイプして読む代わりにエージェントと話す理由

ハンズフリーで流れの中に。優秀なエージェントは一つの指示で何分も動きます。ハンズフリーの Voice Mode なら、キーボードに張りつかずにずっとつながっていられます。状況を尋ね、次の一手を方向づけ、判断を確認する、ホワイトボードの前に立っていても、アプリの再読み込みを見ていても。

自然なやり取り。プロンプトをタイプして待ち、出力を読み、また打つ、これはぎこちないループです。自分の番を話して答えを聞くのは会話です。短い番(手早い「はい」、小さな訂正、もう一つの質問)では速く、更新のたびに terminal の文字の壁を読むよりずっと疲れません。

目も画面も自由に。エージェントの返答が聞こえれば、それが何をしたか知るために terminal を見る必要はありません。build や、テストや、デザインを横目で見ても、何も見なくてもよく、声の更新が状況を教えてくれます。エージェントが語り、あなたは本当の仕事があるところに目を向け続けられます。

同じ voice クレジットで。Voice Mode は AgentsRoom の音声バックエンドを使い、入りは speech-to-text、出は text-to-speech で、ディクテーションと同じ voice クレジット残高から引きます。一つの残高がプロンプトのディクテーションと完全な音声会話の両方を動かすので、別途つなぐものは何もありません。

Voice Mode の仕組み

動いているエージェントで開き、話し、聞き、繰り返す。タイプして読む代わりに、話すループ。

01

動いているエージェントで Voice Mode を開く

Voice Mode は、すでに terminal で動いているエージェントに対して、そのエージェントの composer から立ち上がります。会話はその特定のエージェントと、その現在のコンテキストで行うものであって、まっさらなチャットではないため、ライブのセッションが必要です。

02

タップして話す

一度タップして自分の番を話します : 質問、指示、訂正。状態がライブインジケーター付きの聞き取りに切り替わるので、マイクが拾っているのが分かります。番のあいだも聞き続けさせるならハンズフリー、一度に一つの番だけ取るなら tap-to-talk を選びます。

03

文字起こししてエージェントへ送る

話し終えると、あなたの音声が文字起こしされ、まるでタイプしたかのように、動いているエージェントへあなたのメッセージとして送られます。状態が文字起こしと送信を通って進むので、自分の番が pipeline のどこにいるか常に分かります。

04

エージェントが働く

エージェントは自分のセッションであなたの番を処理します : ファイルを読み、コマンドを走らせ、コードを編集し、テストを走らせる、メッセージが求めたことなら何でも。Voice Mode は、terminal での通常の番と同じように、仕事をしているあいだエージェントの名前とともに作業状態を表示します。

05

返答を声で聞く

エージェントが答えると、その返答があなたの選んだ声で読み上げられます。状況、結果、次の質問を、terminal を読まずに聞けます。任意のビープ音が番と番の境目を告げるので、また自分の番だと分かります。

06

次の番を取る

ハンズフリーならすでにまた聞き取っているので、そのまま話し続けるだけです。tap-to-talk なら、タップして次の番を始めます。会話は望むだけ続き、その後あなたが Voice Mode を閉じると、エージェントは terminal の中であなたが離れたそのままの場所にいます。

ハンズフリー、だからキーボードなしで流れの中に居られる

Voice Mode の狙いは目新しさではありません。机に縛られずに速いエージェントについていくことです。

現代のコーディングエージェントは一つの番で多くをこなし、番と番の隙間こそ、普段ならコンテキストを失う場所です : 席を立ち、エージェントが終わり、戻ってくると、今から読まねばならない出力で埋まった画面が待っています。ハンズフリーの Voice Mode はその隙間を埋めます。エージェントは終わったときに何をしたか声で伝え、あなたは座り直さずに答えます。

ハンズフリーは番のあいだもマイクを開いたままにするので、会話は電話のように流れます : あなたが話し、エージェントが働き、声で返し、あなたがまた話す。一つひとつの番を制御したいですか ? tap-to-talk は一度に一つの番を取るので、騒がしい部屋や、ときどきだけ口を挟みたいときに便利です。

ビープ音は小さなことですが、実際には大事です。画面を見ていないとき、短いビープがエージェントが話し終えてあなたの番だと教えてくれるので、声をかぶせたり、終わったかどうか分からないまま黙って待ったりせずに済みます。

これが Voice Mode を、ただのデモではなく本当の仕事に役立つものにしています。エージェントが重い作業を担い、あなたが方向づけ、様子を見て、承認したい瞬間のために作られていて、その間あなたの手と目は他のすべてに自由です。

声を選び、会話を追う

Voice Mode は、話す会話を心地よくする操作をあなたに渡し、それぞれの番がどこにあるかを正確に見せます。

声と合図

  • 返答の声 : alloy ほか自然な声
  • ハンズフリー : 番のあいだも聞き続ける
  • tap-to-talk : 一度に一つの番を取る
  • ビープ音 : 短い音が各番の境目を告げる
  • 言語自動 : 自分の言葉で話せば、言語を検出する

会話の状態

  • 聞き取り : マイクがあなたの番を拾っている
  • 文字起こし : あなたの音声が文字に変わっている
  • 送信 : あなたのメッセージがエージェントへ向かっている
  • 作業 : エージェントが仕事をしている
  • 発話 : エージェントの返答が声で読み上げられている

言語の自動検出のおかげで、話し始めるのに言語を選ぶ必要はなく、見える状態のおかげで、エージェントが聞き取ったのか、働いているのか、これから答えるのかを当てずっぽうで考えずに済みます。

Voice Mode が内部で実際にやっていること

Voice Mode は通常のエージェントセッションの上に乗る全二重のレイヤーです。あなたの番では、声を録音して音声を AgentsRoom のバックエンドへ送り、バックエンドが speech-to-text を実行して文字起こしを返します。その文字起こしが動いているエージェントへあなたのメッセージとして注入されるので、エージェントから見れば、すでにあなたと交わしている会話のもう一つの番にすぎません。

エージェントの番では、そのテキストの返答が AgentsRoom のバックエンドへ送り返され、あなたの選んだ声で text-to-speech にかけられ、できた音声があなたに再生されます。入りは speech-to-text、出は text-to-speech、その間にエージェントの本当の仕事があります。だから Voice Mode はアカウントと動いているエージェントを必要とします : 音声バックエンドが speech モデルを中継し、会話はライブのセッションに結びついているからです。

エージェントが見るのは常にテキストだけなので、Voice Mode は構造上プロバイダー中立です。エージェントが Claude Code、Codex、Gemini CLI、OpenCode、Aider のいずれであっても、文字起こしされたあなたの番はメッセージとして届き、その返答は同じように声で返されます。音声レイヤーの何も、下で動いている CLI に依存しません。

Voice Mode と音声ディクテーションは、どちらも同じ speech バックエンドに頼るため、同じ voice クレジット残高を共有します。ディクテーションは一方向の文字起こしにクレジットを使います。Voice Mode は文字起こしと音声の返答という往復にクレジットを使い、会話は話し続ける限り続くため、本質的に上限がありません。

Voice Mode が使える場所

動いているデスクトップエージェントとの双方向の話す会話、音声が入り音声が出る。

デスクトップ、ライブのエージェントで

Voice Mode は macOS で動き、すでに動いているエージェントの composer から立ち上がります。その特定のエージェントとその現在のセッションで話すので、会話はエージェントが積み上げてきた完全なコンテキストを持ち、白紙ではありません。

音声が入る

あなたの番はマイクが拾い、AgentsRoom の音声バックエンドが文字起こしし、エージェントへあなたのメッセージとして送られます。ハンズフリーは番のあいだもマイクを開いたままにし、tap-to-talk は一度に一つの番を取ります。言語は自動で検出されます。

音声が出る

エージェントの返答は、あなたの選ぶ声(alloy ほか)で text-to-speech により声で読み上げられます。任意のビープ音が各音声返答の終わりを告げるので、画面を見ていなくても自分の番だと分かります。

音声ディクテーション vs Voice Mode

どちらもあなたの声を使います。一方はプロンプトを書き、もう一方は会話を交わします。

音声ディクテーション(一方向)

  • : あなたが話し、それが言葉を composer に文字起こしする。
  • : エージェントの返答は、やはりあなたが画面で読む。
  • : 長く正確なプロンプトを素早く書くのに最適。
  • : 送信し、結果を読むために、あなたはキーボードに残る。
  • : 一方向 : 音声が入り、下書きにテキスト、そこから先はあなた次第。

Voice Mode(双方向)

  • : あなたが自分の番を話し、エージェントが声で返す。
  • : 返答が聞こえるので、terminal を読む必要はない。
  • : エージェントが働くあいだ、方向づけや様子見に最適。
  • : ハンズフリーがキーボードなしで会話を続けさせる。
  • : 両方向 : 音声が入り、エージェントが働き、音声が出る。

ディクテーションで良いプロンプトを数秒で書き、Voice Mode でそれを実行するエージェントと話しましょう。

話す番はこんな感じ

これをひとつもタイプする必要はありません。自分の番を声に出して話せば、エージェントが仕事をして、返答を声で返します。これは Voice Mode 会話の一往復です。

会話の一往復

あなた : login の refactor はどこまで進んでる ?
エージェント : rate limiter は入れてあって、成功パスは手つかずです。テストが二つまだ赤いままです。
あなた : 失敗してる二つのテストを直して、それから全スイートを走らせて件数を教えて。
エージェント : 完了。両方とも今は通ります。全スイート : 142 成功、0 失敗。
あなた : いいね。短いメッセージで commit して、そこで止めて。
番はいつもあなたが始める
Voice Mode は自分から動きません。あなたがタップするか話して番を取り、エージェントはあなたの話したメッセージが求めたことだけをします。tap-to-talk は番ごとの制御を与え、ハンズフリーは Voice Mode が開いているあいだだけ聞き取ります。
アカウントとライブのエージェント
Voice Mode はサインイン済みのアカウントを必要とします。音声バックエンドが speech モデルを中継し voice クレジットを課金するためです。そして動いているエージェントも必要とします。会話がそのライブのセッションとそのコンテキストに結びついているためです。
すべてのエージェントで動く
エージェントが見るのはテキストだけなので、Voice Mode は Claude Code、Codex、Gemini CLI、OpenCode、Aider で同じように振る舞います。音声レイヤーはセッションを包み、下にどの CLI があるかには決して依存しません。

FAQ

AgentsRoom の Voice Mode とは何ですか ?

Voice Mode は、動いている AIコーディングエージェントとの双方向の音声会話です。タップして自分の番を話すと、あなたの音声が文字起こしされてエージェントへ送られ、エージェントが仕事をし、その返答が自然な声であなたに読み上げられます。プロンプトをタイプして terminal の出力を読む代わりに、エージェントと話してその答えを聞けます。

Voice Mode は音声ディクテーションとどう違いますか ?

音声ディクテーションは一方向です : あなたが話すと言葉がプロンプトとして composer に文字起こしされ、それからエージェントの返答を画面で読みます。Voice Mode は双方向です : あなたが自分の番を話し、エージェントが声で返す、生の話すやり取り。ディクテーションはプロンプトをより速く書く助けに、Voice Mode はエージェントが働くあいだハンズフリーの会話を交わすことを可能にします。

エージェントは本当に声で返しますか ?

はい。エージェントの返答は text-to-speech で音声に変換され、あなたの選ぶ声で読み上げられます。状況、結果、次の質問が聞こえるので、エージェントが何をしたか知るために terminal を読む必要はありません。

ハンズフリーモードとは何ですか ?

ハンズフリーは番のあいだもマイクを開いたままにするので、会話は電話のように流れます : あなたが話し、エージェントが働き、声で返し、すでにあなたの次の番を聞き取っています。一つひとつの番を制御したいなら、tap-to-talk が一度に一つの番を取るので、騒がしい部屋で便利です。

声を選べますか ?

はい。エージェントの音声の答えに使う返答の声(alloy ほか)を選べます。任意のビープ音もオンにでき、番と番の境目で短い音を鳴らすので、エージェントが話し終えてあなたの番になったと分かります。

Voice Mode はどの言語に対応していますか ?

Voice Mode はあなたが話す言語を自動検出するので、先に言語を選ばずに自分の言葉で話せます。文字起こしは AgentsRoom の音声バックエンドが処理し、これはディクテーションと同じ speech スタックです。

アカウントと動いているエージェントは必要ですか ?

どちらも必要です。Voice Mode はサインイン済みのアカウントを必要とします。音声バックエンドが speech モデルを中継し、あなたの voice クレジットを使うためです。そしてすでに動いているエージェントも必要とします。会話がそのライブのセッションに結びつき、その現在のコンテキストを使うためです。

Voice Mode はクレジットを使いますか ?

はい。Voice Mode はディクテーションと同じ voice クレジット残高で動きます。ディクテーションはあなたの音声を一方向に文字起こしするためにクレジットを使います。Voice Mode は文字起こしと音声の返答という完全な往復にクレジットを使い、会話は話し続ける限り続くため、上限がありません。

ライブの web デモで使えますか ?

いいえ。公開の web デモはバックエンドをモックしているので、リアルタイムの音声会話はそこでは動きません。デモで Voice Mode をクリックすると、AgentsRoom のダウンロードを促す案内が表示され、そこでは Voice Mode が本物のエージェントと話します。

Voice Mode は Claude Code、Codex、Gemini で動きますか ?

はい、すべてで動きます。さらに OpenCode と Aider でも。エージェントが見るのは常にテキストだけなので、あなたの話した番はメッセージとして届き、その返答は下でどのエージェント CLI が動いていても同じように声で返されます。

相性のよい機能

エージェントと話し、声の返事を聞く

AgentsRoom をダウンロードして、動いているエージェントで Voice Mode を開きましょう。自分の番を話し、返答を聞き、エージェントが仕事をするあいだハンズフリーで流れの中に居続けます。AIコーディングIDEに組み込まれた双方向の音声会話。

無料AgentsRoomをダウンロード

コンパニオンアプリ:外出先でもエージェントを確認

Claude、Codex、Gemini CLI、またはその他の AI プロバイダーを使用します。

拡張機能を入手
Chrome Web Store

バグや要望を公開バックログに直接送信できます。

実際の AgentsRoom の様子。

マルチプロジェクト
マルチプロバイダー
マルチエージェント
ライブステータス
ファイル差分
モバイルアプリ
ライブプレビュー
エージェントチーム
ブラウザテスト
バックログ駆動開発
プロンプトライブラリ
スキルライブラリ
すべての機能を見る