Delegasi agen : dev ke QA : model lebih murah untuk tes

Delegasi agen :
agen dev Anda mendelegasikan tes

Delegasi agen memungkinkan agen dev Anda menyelesaikan sebuah fitur dan menyerahkan validasinya ke agen QA terpisah. Dev tetap mengirimkan kode dengan model yang Anda percaya untuk masalah sulit. Agen QA menjalankan tes pada model yang lebih murah. Keduanya berbicara melalui server MCP AgentsRoom, sehingga delegasi agen bekerja menyeluruh tanpa Anda perlu menyalin apa pun.

Anda berhenti membayar harga Opus untuk klik browser. Anda berhenti membebani konteks agen dev dengan tangkapan layar dan dump DOM. Delegasi agen mengarahkan setiap tugas ke model yang tepat dengan harga yang tepat, dan ketika agen QA selesai, ia memberi sinyal kembali ke agen dev sehingga loop tertutup sendiri.

Delegasi agen beraksi : agen dev Codex menyelesaikan fitur, memanggil run_qa_test, agen QA membuka browser pada model yang lebih murah dan melaporkan kembali.

Inilah masalah yang dipecahkan oleh delegasi agen. Anda menjalankan agen dev yang kuat (Claude Opus, Codex, jenis model yang merancang API atau merefaktor sebuah store). Agen mengirimkan fitur dalam 10 menit. Lalu ia menghabiskan 8 menit berikutnya mengklik browser untuk memverifikasi fitur bekerja. Tarif token mahal yang sama. Model yang sama yang tadi memikirkan logika domain Anda dengan serius, kini membaca label tombol.

Delegasi agen memperbaiki itu. Ketika fitur selesai, agen dev memanggil satu tool MCP, run_qa_test, dengan sebuah skenario. AgentsRoom membuat agen QA ephemeral pada model yang Anda pilih untuk QA : Claude Haiku, Codex mini, GPT-4 mini, apa pun yang Anda mau. Agen QA mendapatkan AgentsRoom Browser MCP, mengendalikan halaman, memvalidasi hasil, dan membalas dengan sebuah verdict. Agen dev membaca verdict tersebut dan melanjutkan.

Itulah delegasi agen, dan itulah satu-satunya loop yang dibahas halaman ini. Satu dev, satu QA, satu MCP. Ide yang sama dengan engineer senior yang mendelegasikan pengujian regresi ke junior atau ke QA : senior tetap merancang, junior menjalankan checklist. Delegasi agen memberi Anda pembagian yang sama antar model.

Delegasi agen di AgentsRoom : agen dev Codex telah menyelesaikan tugasnya dan sebuah agen QA telah didelegasikan di bawahnya, dengan label 'QA for Codex agent' menunjukkan serah terima dev ke QA dalam daftar agen

Visualisasi delegasi agen : agen dev induk (Codex) dan agen QA anak (Claude) muncul dalam daftar agen yang sama, dengan serah terima dev ke QA yang jelas.

Mengapa delegasi agen layak dipasang

Pertama, uang. Satu lintasan tes pada Claude Opus dan satu lintasan tes pada Claude Haiku memiliki biaya yang sangat berbeda. Browser sama, assertion sama, tangkapan layar sama. Delegasi agen membiarkan model murah mengerjakan pekerjaan murah. Orang-orang yang mengaktifkan ini melaporkan tagihan token mereka pada hari-hari berat QA turun dengan faktor nyata yang terukur, bukan sekadar 5 sampai 10 persen.

Kedua, konteks. Ketika agen dev menjalankan tes sendiri, setiap tangkapan layar, setiap dump DOM, setiap log konsol berakhir di jendela konteks agen dev. Dua puluh menit mengklik adalah megabyte kebisingan yang harus dibawa agen dev sepanjang sisa sesi. Delegasi agen mengisolasi kebisingan itu di dalam agen QA ephemeral. Agen dev mendapatkan pesan 'lulus' atau 'gagal' yang bersih, tidak lebih.

Ketiga, sudut ekologis. Setiap delegasi agen menghemat komputasi nyata. Menjalankan Haiku di tempat Opus tadi berjalan memangkas jejak energi pada langkah itu menjadi setengahnya. Kalikan dengan setiap orang di tim dan setiap loop tes dalam setahun, dan delegasi agen menjadi knob yang tidak sepele pada sisi karbon dari stack Anda.

Keempat, keandalan. Agen dev yang mengendalikan browser sendiri cenderung melenceng. Dua tangkapan layar berlalu, ia lupa apa yang sedang ia validasi. Agen QA dalam delegasi agen memiliki satu tugas dan satu prompt. Ia menguji, ia melaporkan, ia mati. Loopnya pendek, dapat diprediksi, dan mudah di-debug.

Satu-satunya alur yang dibahas delegasi agen di sini

Satu agen dev. Satu agen QA. Satu panggilan MCP. Delegasi agen, menyeluruh.

01

Agen dev mengirimkan fitur

Agen dev Anda (Claude Opus, Codex high reasoning, model mahal mana pun yang Anda percaya) menyelesaikan implementasi. Endpoint baru, layar baru, alur baru. Kode ditulis, file disimpan.

02

Agen dev memanggil run_qa_test

Alih-alih membuka browser sendiri, agen dev memanggil satu tool MCP dari server AgentsRoom Test Runner : run_qa_test, dengan skenario dalam bahasa Inggris polos. Itulah seluruh permukaan API delegasi agen.

03

AgentsRoom membuat agen QA

AgentsRoom Test Runner membuat agen QA ephemeral pada model lebih murah yang Anda konfigurasikan (Claude Haiku, Codex mini, GPT-4 mini). Agen QA mendapatkan tool AgentsRoom Browser MCP : navigate, click, type, screenshot, evaluate, get_logs, get_state.

04

Agen QA menjalankan tes

Agen QA membuka halaman, menelusuri skenario, memvalidasi hasilnya, menangkap tangkapan layar jika perlu, dan membaca log konsol untuk menangkap error runtime yang akan terlewat oleh agen dev.

05

Agen QA mengirimkan verdict

Ketika selesai, agen QA memanggil submit_verdict dengan hasil pass, fail, atau inconclusive, dan ringkasan singkat. Tangkapan layar dan log dilampirkan. Proses agen QA dihancurkan. Jendela konteksnya ikut hilang.

06

Agen dev membaca verdict dan melanjutkan

Agen dev menerima verdict kembali sebagai respons run_qa_test. Pada pass, agen dev commit atau pindah ke tiket berikutnya. Pada fail, agen dev membaca ringkasan kegagalan, memperbaiki bug, dan memicu siklus delegasi agen baru. Loopnya tertutup sendiri.

Ekonomi delegasi agen

Mengapa pembagian dev ke QA yang cerdas menurunkan tagihan AI tanpa menurunkan standar Anda.

Tes browser bersifat repetitif. Buka halaman, klik tombol, baca label, periksa toast. Model dengan harga 50 dolar per juta token mengerjakan itu sama baiknya dengan model 3 dolar per juta token. Mungkin lebih baik, karena model murah tidak bosan. Delegasi agen menempatkan model murah pada paruh pekerjaan yang membosankan.

Angka nyata dari sesi nyata : tes end to end pada alur kompleks biasanya membakar 60rb sampai 200rb token antara tangkapan layar, dump DOM, dan langkah penalaran. Di Opus, itu uang sungguhan per tes. Di Haiku, itu uang receh. Delegasi agen mengubah kebiasaan QA harian dari beban anggaran menjadi refleks gratis.

Kalikan dengan setiap loop. Hari dev normal pada fitur non-trivial menjalankan tes lima hingga dua puluh kali. Delegasi agen menumpuk efeknya di sepanjang pengulangan itu. Agen dev tetap mahal (Anda memang ingin ia mahal), agen QA tetap murah, dan selisihnya adalah penghematan murni.

Delegasi agen juga lebih baik untuk planet. Komputasi yang lebih sedikit pada pekerjaan yang sama berarti energi lebih sedikit, air datacenter lebih sedikit, karbon lebih sedikit. Bukan satu-satunya alasan untuk memasang delegasi agen, tapi efek samping yang adil dari mengarahkan tugas ke model berukuran tepat.

Pembagian model nyata untuk delegasi agen

Apa yang orang benar-benar pasang di sisi dev dan sisi QA dari delegasi agen.

Sisi dev (sengaja dibiarkan mahal)

  • Claude Opus 4.7
  • Claude Sonnet 4.6
  • Codex high reasoning
  • GPT-4 with deep reasoning
  • Gemini 2.5 Pro

Sisi QA (didelegasikan ke yang lebih murah)

  • Claude Haiku 4
  • Claude Sonnet 4 (low effort)
  • Codex mini
  • GPT-4 mini
  • Gemini 2.5 Flash

Delegasi agen tidak mengunci matriks. Anda mengonfigurasi model QA per proyek. Anda bahkan dapat mendelegasikan ke penyedia yang sepenuhnya berbeda : Opus di dev, Codex mini di QA, tanpa konteks bersama, hanya panggilan MCP.

Apa yang sebenarnya dilakukan delegasi agen di balik layar

Delegasi agen duduk di atas stack MCP AgentsRoom. Agen dev berjalan di dalam CLI-nya (Claude Code, Codex, Gemini, OpenCode, Aider). AgentsRoom menyuntikkan server Test Runner MCP ke agen tersebut. Test Runner mengekspos satu tool : run_qa_test. Itulah titik masuk setiap panggilan delegasi agen.

Ketika run_qa_test dipicu, AgentsRoom membuat proses CLI baru di proyek yang sama, dengan konfigurasi berbeda. Konfigurasi itu memiliki Browser MCP terpasang, system prompt QA terpasang, dan model diganti ke apa pun yang Anda tetapkan di sisi QA. Proses baru itu adalah agen QA ephemeral : ia hidup selama durasi tes dan mati setelah submit_verdict.

Saat agen QA berjalan, agen dev dijeda pada panggilan run_qa_test. AgentsRoom menampilkan agen QA dalam daftar agen yang sama, indented di bawah agen dev (terlihat pada gambar di atas). Ketika agen QA selesai, verdict-nya dikembalikan sebagai hasil run_qa_test dan agen dev melanjutkan. Delegasi agen adalah satu round trip MCP dari sudut pandang agen dev.

Agen dev tidak pernah mendapat tool browser. AgentsRoom menghapus tool browser_* dari daftar yang diizinkan agen dev pada waktu spawn. Itulah bagian yang membuat delegasi agen andal : agen dev tidak bisa kembali mengerjakan tes sendiri, bahkan ketika instingnya adalah mengambil tangkapan layar. Satu-satunya jalan ke depan adalah run_qa_test. Delegasi agen dengan penghapusan, bukan dengan permintaan.

Di mana delegasi agen berjalan hari ini, dan ke mana selanjutnya

Delegasi agen di AgentsRoom mengutamakan browser hari ini. Bentuk yang sama, lebih banyak permukaan menyusul.

Hari ini : delegasi tes browser

Agen QA mengendalikan browser tertanam AgentsRoom melalui Browser MCP. Server dev localhost, tunnel preview publik, URL staging, apa pun yang dapat dirender Chromium. Form, modal, drag and drop, dialog, log konsol, error jaringan. Delegasi agen mencakup seluruh permukaan yang akan dicakup oleh QA engineer web.

Delegasi tes aplikasi Electron

Jika Anda sendiri mengirimkan aplikasi Electron, Anda dapat memasang library AgentsRoom Electron MCP di proyek Anda. Agen QA terhubung ke aplikasi Electron Anda dengan cara yang sama seperti ia terhubung ke tab Chromium. Delegasi agen merambah ke pengujian aplikasi desktop tanpa mengubah sisi dev sama sekali.

Delegasi tes aplikasi React Native (roadmap)

Bentuk delegasi agen yang sama akan datang ke React Native. Agen QA akan mengendalikan simulator iOS atau Android melalui AgentsRoom React Native MCP. Agen dev mengirimkan sebuah layar, agen QA mengetuknya. Panggilan run_qa_test yang sama, serah terima dev ke QA yang sama, target mobile.

Tanpa delegasi agen vs dengan delegasi agen

Fitur sama, lintasan QA sama. Tagihan berbeda, konteks berbeda, keandalan berbeda.

Tanpa delegasi agen

  • : Agen dev (mahal) membuka browser sendiri.
  • : Setiap tangkapan layar, setiap dump DOM, dan setiap log konsol mendarat di konteks agen dev.
  • : 20 menit mengklik membakar token Opus pada pekerjaan yang akan dilakukan model lebih murah.
  • : Agen dev lupa apa yang sedang ia kerjakan setelah dua tangkapan layar.
  • : Anda membayar harga penuh untuk klik browser, planet juga membayar harga penuh.

Dengan delegasi agen

  • : Agen dev memanggil run_qa_test dan menunggu.
  • : Sebuah agen QA murah melakukan klik, assertion, penangkapan tangkapan layar.
  • : Hanya verdict (pass, fail, ringkasan) yang mencapai agen dev.
  • : Agen QA bersifat ephemeral : ia mati setelah submit_verdict, tanpa pembengkakan konteks.
  • : Tagihan token turun, agen dev tetap fokus, loop tertutup sendiri.

Delegasi agen adalah kemenangan keandalan termurah yang dapat Anda pasang ke setup agen coding.

Seperti apa panggilan delegasi agen itu

Inilah seluruh bentuk delegasi agen dev ke QA. Agen dev memicunya melalui Test Runner MCP dan menunggu respons.

Panggilan tool MCP (agen dev)

run_qa_test({
  scenario: "Open http://localhost:3000/login.\n  Type the seeded test user in the email field.\n  Submit the form.\n  Assert the dashboard URL is reached and the user's name is shown in the header.\n  Capture a screenshot on success, capture console logs on failure."
})
Delegasi agen yang mengutamakan lokal
Delegasi agen berjalan sepenuhnya di mesin Anda. Agen dev, agen QA, jembatan MCP, browser : semua loopback. Tidak ada apa pun tentang tes yang dikirim ke cloud pihak ketiga.
Delegasi agen lintas penyedia
Delegasi agen bekerja lintas penyedia. Codex di dev, Claude Haiku di QA. Opus di dev, GPT-4 mini di QA. Delegasi agen adalah pertanyaan protokol, bukan pertanyaan vendor.
Manusia dalam loop
Delegasi agen tidak mengunci Anda. Anda dapat membaca verdict QA, menonton agen QA secara langsung, menghentikannya, atau memutar ulang. Delegasi agen adalah pengungkit, bukan autopilot.

FAQ

Apa itu delegasi agen di AgentsRoom ?

Delegasi agen adalah serah terima dev ke QA antara dua agen coding AI. Agen dev menyelesaikan sebuah fitur, memanggil satu tool MCP (run_qa_test), dan agen QA ephemeral menjalankan tes pada model berbeda. Agen dev membaca verdict dan melanjutkan. Seluruh alur delegasi agen terjadi melalui server MCP AgentsRoom.

Mengapa saya menginginkan delegasi agen sama sekali ?

Tiga alasan. Uang : agen QA berjalan pada model yang lebih murah, sehingga lintasan tes menelan biaya sebagian kecil dari yang akan dikeluarkan pada model dev. Konteks : agen dev tetap bersih, semua tangkapan layar dan dump DOM mati bersama agen QA. Keandalan : agen QA memiliki satu tugas, sehingga ia menguji lebih baik daripada agen dev yang multitasking dengan klik browser.

Model mana yang bekerja untuk delegasi agen ?

Model apa pun yang didukung AgentsRoom : Claude (Opus, Sonnet, Haiku), Codex (high, mini), Gemini (Pro, Flash), OpenCode, Aider. Delegasi agen bersifat lintas penyedia. Pembagian umum adalah Claude Opus atau Codex di sisi dev dan Claude Haiku atau Codex mini di sisi QA, tetapi Anda yang memilih.

Apakah delegasi agen hanya untuk tes browser ?

Hari ini, ya, agen QA mengendalikan browser Chromium tertanam AgentsRoom. Besok, bentuk delegasi agen yang sama akan mencakup aplikasi Electron (pasang library AgentsRoom Electron MCP di proyek Electron Anda) dan aplikasi React Native (roadmap, simulator iOS dan Android).

Bagaimana delegasi agen menghindari agen dev mengerjakan tes sendiri ?

AgentsRoom menghapus tool browser_* dari agen dev pada waktu spawn. Agen dev secara harfiah tidak dapat memanggil browser_navigate atau browser_screenshot. Satu-satunya jalur browser adalah run_qa_test, yang memicu delegasi agen. Pembatasan itu bersifat mekanis, bukan permintaan sopan di dalam prompt.

Apakah delegasi agen berbasis cloud atau lokal ?

Mengutamakan lokal. Agen dev, agen QA ephemeral, jembatan MCP, dan browser semuanya berjalan di mesin Anda. Delegasi agen hanya menggunakan cloud ketika model yang mendasari (Claude, Codex, Gemini) berbicara ke penyedianya sendiri, persis seperti run agen normal.

Apakah delegasi agen menghemat uang nyata ?

Ya, dengan faktor yang berarti pada hari-hari berat QA. Tes end-to-end kompleks pada Opus atau Codex high vs tes yang sama pada Haiku atau Codex mini kira-kira selisih biaya 10x. Delegasi agen sepanjang hari dev di seluruh tim memperbesar selisih itu dengan cepat.

Apa yang didapatkan agen dev kembali dari delegasi agen ?

Sebuah verdict terstruktur singkat : pass, fail, atau inconclusive, dengan ringkasan, jalur tangkapan layar opsional, dan log konsol opsional. Tidak ada tangkapan layar mentah di konteks, tidak ada dump DOM. Itulah inti dari delegasi agen : mengisolasi kebisingan QA di dalam agen QA.

Bisakah agen QA membuat tiket backlog ketika gagal ?

Ya. Delegasi agen memberi agen QA Backlog MCP. Sebuah kegagalan dapat mendarat sebagai tiket backlog di proyek, dengan skenario, tangkapan layar, dan log konsol terlampir. Agen dev membaca verdict dan tiket backlog membawa detail bentuk panjangnya.

Di mana delegasi agen cocok relatif terhadap fitur AgentsRoom lainnya ?

Delegasi agen hidup di atas Browser Automation (yang memberi agen QA browser) dan server MCP AgentsRoom (yang memberi setiap agen permukaan tool-nya). Agent Teams adalah editor workflow multi-agen yang lebih luas : delegasi agen adalah varian dev ke QA dari workflow itu, tetapi diekspos sebagai satu panggilan MCP sehingga agen mana pun dari penyedia mana pun dapat menggunakannya tanpa mengkonfigurasi graf.

Cocok dipasangkan dengan

Berhenti membayar harga Opus untuk klik QA

Unduh AgentsRoom dan coba delegasi agen. Pasang agen dev Anda pada model yang Anda percaya, agen QA Anda pada model lebih murah, dan biarkan serah terima dev ke QA terjadi sendiri melalui MCP.

GratisUnduh AgentsRoom

Aplikasi pendamping: pantau agen Anda saat bepergian

Gunakan Claude, Codex, Gemini CLI, atau penyedia AI lainnya.

Dapatkan ekstensi
Chrome Web Store

Kirim bug dan permintaan langsung ke backlog publik Anda.

Beberapa proyek
Multi-penyedia
Beberapa agen
Status langsung
File diff & commit
Pendamping mobile
Pratinjau langsung
Tim agen
Otomatisasi browser
Dev berbasis backlog
Pustaka prompt
Pustaka skill