エージェント委譲 : 開発からQAへ : テストには安価なモデル

エージェント委譲 :
開発エージェントがテストを委譲する

エージェント委譲を使えば、開発エージェントは機能を完成させ、検証を別のQAエージェントに引き渡すことができます。開発側は難題で信頼しているモデルでコードを書き続けます。QAエージェントは安価なモデルでテストを実行します。両者はAgentsRoomのMCPサーバー経由で対話するので、エージェント委譲は何もコピーすることなくエンドツーエンドで機能します。

ブラウザのクリック1つ1つにOpusの料金を払う必要はなくなります。スクリーンショットやDOMダンプで開発エージェントのコンテキストを膨らませることもなくなります。エージェント委譲は各タスクを適切な価格の適切なモデルにルーティングし、QAエージェントが終わると開発エージェントに通知を返すので、ループは自動で閉じます。

実際のエージェント委譲 : Codex開発エージェントが機能を完成させ、run_qa_testを呼び出し、QAエージェントが安価なモデルでブラウザを開いて結果を報告します。

エージェント委譲が解決する問題はこれです。強力な開発エージェント (Claude Opus、Codex、APIを設計したりストアをリファクタするタイプのモデル) を動かしているとします。エージェントは10分で機能を完成させます。それから次の8分間、機能が動くか確認するためにブラウザをクリックして回ります。同じ高価なトークン単価。ドメインロジックを深く考えていたモデルが、今度はボタンのラベルを読んでいるわけです。

エージェント委譲はそれを解決します。機能が完成すると、開発エージェントは1つのMCPツール、run_qa_testをシナリオ付きで呼び出します。AgentsRoomは、あなたがQA用に選んだモデル (Claude Haiku、Codex mini、GPT-4 mini、好きなもの) で短命のQAエージェントを起動します。QAエージェントはAgentsRoom Browser MCPを受け取り、ページを操作し、結果を検証し、判定を返します。開発エージェントは判定を読み、次に進みます。

それがエージェント委譲であり、このページが扱う唯一のループです。1つの開発、1つのQA、1つのMCP。シニアエンジニアが回帰テストをジュニアまたはQAに委譲するのと同じ発想です : シニアは設計を続け、ジュニアはチェックリストを実行します。エージェント委譲はモデル間でその同じ役割分担を実現します。

AgentsRoomのエージェント委譲 : Codex開発エージェントがタスクを完了し、その下にQAエージェントが委譲され、エージェント一覧に「QA for Codex agent」のラベルが付いて開発からQAへの引き継ぎが表示されている

エージェント委譲の可視化 : 親の開発エージェント (Codex) と子のQAエージェント (Claude) が同じエージェント一覧に並び、開発からQAへの引き継ぎが一目で分かります。

エージェント委譲を組み込む価値

まずお金。Claude Opusでのテスト1回とClaude Haikuでのテスト1回ではコストが桁違いです。同じブラウザ、同じアサーション、同じスクリーンショット。エージェント委譲は安いモデルに安い仕事をさせます。これを有効にした人たちは、QAが多い日のトークン代を5から10パーセントではなく、測定可能な大きな倍率で削減したと報告しています。

次にコンテキスト。開発エージェント自身がテストを実行すると、すべてのスクリーンショット、すべてのDOMダンプ、すべてのコンソールログが開発エージェントのコンテキストウィンドウに残ります。20分のクリック作業は、開発エージェントがセッションの残りの間ずっと持ち運ぶことになるメガバイト級のノイズです。エージェント委譲はそのノイズを短命のQAエージェントの中に隔離します。開発エージェントが受け取るのはきれいな「合格」または「失敗」のメッセージだけ、それ以外は何もありません。

3つ目はエコロジーの観点。エージェント委譲のたびに実際の計算資源が節約されます。Opusを動かしていた場所でHaikuを動かせば、そのステップのエネルギーフットプリントは半減します。チーム全員と1年間のすべてのテストループで掛け合わせれば、エージェント委譲はあなたのスタックのカーボン側で無視できないつまみになります。

4つ目は信頼性。自分でブラウザを操作する開発エージェントはどうしてもさまよいがちです。スクリーンショットを2枚撮った時点で、何を検証しようとしていたか忘れます。エージェント委譲のQAエージェントには仕事が1つ、プロンプトが1つ。テストし、報告し、消える。ループは短く、予測可能で、デバッグも容易です。

このページで扱う唯一のフロー

1つの開発エージェント。1つのQAエージェント。1つのMCP呼び出し。エンドツーエンドのエージェント委譲。

01

開発エージェントが機能を完成させる

あなたの開発エージェント (Claude Opus、Codex high reasoning、信頼している高価なモデルなら何でも) が実装を仕上げます。新しいエンドポイント、新しい画面、新しいフロー。コードは書かれ、ファイルは保存されます。

02

開発エージェントがrun_qa_testを呼ぶ

自分でブラウザを開く代わりに、開発エージェントはAgentsRoom Test RunnerサーバーのMCPツールを1つ、run_qa_testを平易な英語のシナリオとともに呼び出します。それがエージェント委譲のAPI表面のすべてです。

03

AgentsRoomがQAエージェントを起動する

AgentsRoom Test Runnerは、あなたが設定した安価なモデル (Claude Haiku、Codex mini、GPT-4 mini) で短命のQAエージェントを起動します。QAエージェントはAgentsRoom Browser MCPのツール群、navigate、click、type、screenshot、evaluate、get_logs、get_stateを受け取ります。

04

QAエージェントがテストを実行する

QAエージェントはページを開き、シナリオをたどり、結果を検証し、必要に応じてスクリーンショットを取得し、開発エージェントが見逃すであろうランタイムエラーを捕まえるためにコンソールログを読みます。

05

QAエージェントが判定を提出する

終わったら、QAエージェントはsubmit_verdictを呼び出し、合格、失敗、または判定不能の結果と短い要約を返します。スクリーンショットとログは添付されます。QAエージェントのプロセスは破棄されます。コンテキストウィンドウも一緒に消えます。

06

開発エージェントが判定を読んで進む

開発エージェントはrun_qa_testのレスポンスとして判定を受け取ります。合格なら、開発エージェントはコミットするか次のチケットに移ります。失敗なら、開発エージェントは失敗の要約を読み、バグを修正し、新しいエージェント委譲のサイクルを起動します。ループは自動で閉じます。

エージェント委譲の経済性

賢い開発からQAへの分業がなぜ基準を下げずにAI料金を下げるのか。

ブラウザテストは反復的です。ページを開き、ボタンをクリックし、ラベルを読み、トーストを確認する。100万トークンあたり50ドルのモデルでも、100万トークンあたり3ドルのモデルでも、その仕事はこなせます。むしろ安価なモデルの方が良いかもしれません、退屈していませんから。エージェント委譲は仕事の退屈な半分を安価なモデルに任せます。

実際のセッションからの実際の数字 : 複雑なフローの典型的なエンドツーエンドテストは、スクリーンショット、DOMダンプ、推論ステップの間で60kから200kトークンを消費します。Opusならテストあたりかなりの金額。Haikuなら小銭。エージェント委譲は毎日のQA習慣を予算の懸念から無料の反射行動に変えます。

すべてのループに掛け算してください。複雑な機能での通常の開発日では、テストを5回から20回実行します。エージェント委譲はそれらの繰り返しで効果が積み上がります。開発エージェントは高価なまま (高価であってほしい)、QAエージェントは安価なまま、その差は純粋な節約です。

エージェント委譲は地球にも優しいです。同じ仕事に対する計算量が減るということは、エネルギーが減り、データセンターの水が減り、カーボンが減るということです。エージェント委譲を組み込む唯一の理由ではありませんが、適切なサイズのモデルにタスクをルーティングすることの素直な副次効果です。

エージェント委譲の実際のモデル分担

人々が実際にエージェント委譲の開発側とQA側に挿しているもの。

開発側 (意図的に高価なまま)

  • Claude Opus 4.7
  • Claude Sonnet 4.6
  • Codex high reasoning
  • GPT-4 with deep reasoning
  • Gemini 2.5 Pro

QA側 (安価なものに委譲)

  • Claude Haiku 4
  • Claude Sonnet 4 (low effort)
  • Codex mini
  • GPT-4 mini
  • Gemini 2.5 Flash

エージェント委譲はこのマトリクスを固定しません。プロジェクトごとにQAモデルを設定できます。完全に異なるプロバイダにエージェント委譲することも可能です : 開発はOpus、QAはCodex mini、共有コンテキストなし、ただのMCP呼び出し。

エージェント委譲が裏で実際にやっていること

エージェント委譲はAgentsRoom MCPスタックの上に乗っています。開発エージェントは自身のCLI (Claude Code、Codex、Gemini、OpenCode、Aider) の中で動きます。AgentsRoomはそのエージェントにTest Runner MCPサーバーを注入します。Test Runnerは1つのツール、run_qa_testを公開します。それがすべてのエージェント委譲呼び出しのエントリポイントです。

run_qa_testが発火すると、AgentsRoomは同じプロジェクト内で別の設定の新しいCLIプロセスを起動します。その設定にはBrowser MCPがアタッチされ、QAシステムプロンプトがアタッチされ、モデルはQA側に設定したものに切り替わっています。新しいプロセスは短命のQAエージェントです : テストの間だけ生き、submit_verdictの後に死にます。

QAエージェントが動いている間、開発エージェントはrun_qa_test呼び出しで一時停止しています。AgentsRoomはQAエージェントを同じエージェント一覧に、開発エージェントの下にインデントして表示します (上の画像で見えます)。QAエージェントが終わると、その判定はrun_qa_testの結果として返され、開発エージェントは再開します。開発エージェントの視点では、エージェント委譲は1回のMCPラウンドトリップです。

開発エージェントはブラウザツールを一切手にしません。AgentsRoomは起動時に開発エージェントの許可リストからbrowser_*ツールを剥がします。それがエージェント委譲を信頼できるものにする部分です : 開発エージェントは、スクリーンショットを撮りたくなる本能があっても、自分でテストを実行することにフォールバックできません。前に進む唯一の道はrun_qa_testです。要請ではなく剥奪によるエージェント委譲。

エージェント委譲が今日動く場所、そして次に動く場所

AgentsRoomのエージェント委譲は今日のところブラウザ優先。同じ形のまま、対応面が拡大予定。

今日 : ブラウザテスト委譲

QAエージェントはBrowser MCPを介してAgentsRoom組み込みブラウザを操作します。ローカルホストの開発サーバー、公開プレビューのトンネル、ステージングURL、Chromiumがレンダリングできるものなら何でも。フォーム、モーダル、ドラッグアンドドロップ、ダイアログ、コンソールログ、ネットワークエラー。エージェント委譲はWebのQAエンジニアがカバーするすべての面をカバーします。

Electronアプリのテスト委譲

自分でElectronアプリを出荷している場合、プロジェクトにAgentsRoom Electron MCPライブラリをインストールできます。QAエージェントはChromiumタブに接続するのと同じ方法であなたのElectronアプリに接続します。エージェント委譲は開発側を一切変えずにデスクトップアプリのテストへ越境します。

React Nativeアプリのテスト委譲 (ロードマップ)

同じエージェント委譲の形がReact Nativeにも来ます。QAエージェントはAgentsRoom React Native MCPを介してiOSまたはAndroidのシミュレーターを操作します。開発エージェントが画面を出荷し、QAエージェントがそれをタップしていく。同じrun_qa_test呼び出し、同じ開発からQAへの引き継ぎ、モバイル対象。

エージェント委譲なし対エージェント委譲あり

同じ機能、同じQAパス。違う料金、違うコンテキスト、違う信頼性。

エージェント委譲なし

  • : 開発エージェント (高価) が自分でブラウザを開く。
  • : すべてのスクリーンショット、すべてのDOMダンプ、すべてのコンソールログが開発エージェントのコンテキストに残る。
  • : 20分のクリックが、安価なモデルがやる仕事にOpusのトークンを焼く。
  • : 開発エージェントはスクリーンショット2枚目で何をしていたか忘れる。
  • : ブラウザクリックに定価を払い、地球にも定価を払わせる。

エージェント委譲あり

  • : 開発エージェントはrun_qa_testを呼んで待つ。
  • : 安価なQAエージェントがクリック、アサート、スクリーンショット取得をこなす。
  • : 判定 (合格、失敗、要約) だけが開発エージェントに届く。
  • : QAエージェントは短命 : submit_verdictの後に死に、コンテキストが膨らまない。
  • : トークン代が下がり、開発エージェントは集中したまま、ループは自動で閉じる。

エージェント委譲は、コーディングエージェントのセットアップに組み込める最も安い信頼性の勝ち筋です。

エージェント委譲の呼び出しはこんな見た目

開発からQAへのエージェント委譲の全体像はこれです。開発エージェントはこれをTest Runner MCP経由で発火し、レスポンスを待ちます。

MCPツール呼び出し (開発エージェント)

run_qa_test({
  scenario: "Open http://localhost:3000/login.\n  Type the seeded test user in the email field.\n  Submit the form.\n  Assert the dashboard URL is reached and the user's name is shown in the header.\n  Capture a screenshot on success, capture console logs on failure."
})
ローカルファーストのエージェント委譲
エージェント委譲は完全にあなたのマシン上で動きます。開発エージェント、QAエージェント、MCPブリッジ、ブラウザ : すべてループバック。テストに関する何もサードパーティのクラウドに送信されません。
プロバイダ横断のエージェント委譲
エージェント委譲はプロバイダをまたいで機能します。開発にCodex、QAにClaude Haiku。開発にOpus、QAにGPT-4 mini。エージェント委譲はプロトコルの問題であって、ベンダーの問題ではありません。
ヒューマンインザループ
エージェント委譲はあなたを締め出しません。QAの判定を読み、QAエージェントをライブで観察し、止めたり再生したりできます。エージェント委譲はレバレッジであって、オートパイロットではありません。

FAQ

AgentsRoomのエージェント委譲とは何ですか ?

エージェント委譲は、2つのAIコーディングエージェントの間で行われる開発からQAへの引き継ぎです。開発エージェントが機能を完成させ、1つのMCPツール (run_qa_test) を呼び出すと、短命のQAエージェントが別のモデルでテストを実行します。開発エージェントは判定を読んで次に進みます。エージェント委譲のフロー全体はAgentsRoomのMCPサーバーを介して行われます。

そもそもなぜエージェント委譲が必要なのですか ?

3つの理由。お金 : QAエージェントは安価なモデルで動くので、テスト1回のコストは開発モデルでやる場合の何分の一かになります。コンテキスト : 開発エージェントはきれいなまま、スクリーンショットやDOMダンプはすべてQAエージェントとともに消えます。信頼性 : QAエージェントには仕事が1つだけなので、ブラウザクリックで気が散る開発エージェントより良くテストできます。

エージェント委譲ではどのモデルが使えますか ?

AgentsRoomが対応している任意のモデル : Claude (Opus、Sonnet、Haiku)、Codex (high、mini)、Gemini (Pro、Flash)、OpenCode、Aider。エージェント委譲はプロバイダ横断です。よくある分担は開発側にClaude OpusまたはCodex、QA側にClaude HaikuまたはCodex miniですが、あなたが選びます。

エージェント委譲はブラウザテスト専用ですか ?

今日のところはそうです、QAエージェントはAgentsRoom組み込みのChromiumブラウザを操作します。明日には、同じエージェント委譲の形がElectronアプリ (ElectronプロジェクトにAgentsRoom Electron MCPライブラリをインストール) とReact Nativeアプリ (ロードマップ、iOSとAndroidシミュレーター) をカバーします。

エージェント委譲は、開発エージェントが自分でテストしてしまうのをどう防いでいるのですか ?

AgentsRoomは起動時に開発エージェントからbrowser_*ツールを剥がします。開発エージェントは文字通りbrowser_navigateやbrowser_screenshotを呼べません。ブラウザへの唯一の道はrun_qa_testで、それがエージェント委譲を発火します。この制約はメカニカルなものであり、プロンプト内の丁寧なお願いではありません。

エージェント委譲はクラウドですか、ローカルですか ?

ローカルファースト。開発エージェント、短命のQAエージェント、MCPブリッジ、ブラウザはすべてあなたのマシン上で動きます。エージェント委譲がクラウドを使うのは、基盤モデル (Claude、Codex、Gemini) が自身のプロバイダと話す時だけで、通常のエージェント実行とまったく同じです。

エージェント委譲は本当にお金を節約しますか ?

はい、QAが多い日には有意義な倍率で。OpusまたはCodex highでの複雑なエンドツーエンドテストと、HaikuまたはCodex miniでの同じテストとでは、コスト差はおよそ10倍です。チーム全体の開発日全体でエージェント委譲を行うと、その差は急速に拡大します。

開発エージェントはエージェント委譲から何を受け取りますか ?

短い構造化された判定 : 合格、失敗、または判定不能、要約付き、オプションのスクリーンショットパスとオプションのコンソールログ。コンテキストに生のスクリーンショットなし、DOMダンプなし。それがエージェント委譲の核心です : QAのノイズをQAエージェントの中に隔離する。

QAエージェントは失敗時にバックログのチケットを起票できますか ?

はい。エージェント委譲はQAエージェントにBacklog MCPを渡します。失敗は、シナリオ、スクリーンショット、コンソールログを添付してプロジェクトのバックログチケットとして着地できます。開発エージェントは判定を読み、バックログチケットが長文の詳細を運びます。

エージェント委譲は他のAgentsRoom機能とどう位置づけられますか ?

エージェント委譲はBrowser Automation (QAエージェントにブラウザを与える) とAgentsRoom MCPサーバー (各エージェントにツール面を与える) の上に乗っています。Agent Teamsはより広いマルチエージェントのワークフローエディタです : エージェント委譲はそのワークフローの開発からQAへの味付け版ですが、1つのMCP呼び出しとして公開されているので、任意のプロバイダの任意のエージェントがグラフを設定せずに使えます。

あわせて使いたい

QAクリックにOpusの料金を払うのはやめましょう

AgentsRoomをダウンロードしてエージェント委譲を試してください。信頼するモデルに開発エージェントを、安価なモデルにQAエージェントを配線し、MCPを介して開発からQAへの引き継ぎが自動で起きるようにしましょう。

無料AgentsRoomをダウンロード

コンパニオンアプリ:外出先でもエージェントを確認

Claude、Codex、Gemini CLI、またはその他の AI プロバイダーを使用します。

拡張機能を入手
Chrome Web Store

バグや要望を公開バックログに直接送信できます。

マルチプロジェクト
マルチプロバイダー
マルチエージェント
ライブステータス
ファイル差分
モバイルアプリ
ライブプレビュー
エージェントチーム
ブラウザテスト
バックログ駆動開発
プロンプトライブラリ
スキルライブラリ