에이전트 위임 : 개발에서 QA로 : 테스트는 더 저렴한 모델로

에이전트 위임 :
개발 에이전트가 테스트를 위임합니다

에이전트 위임을 통해 개발 에이전트는 기능을 마무리하고 검증은 별도의 QA 에이전트에게 넘길 수 있습니다. 개발 측은 어려운 문제에서 신뢰하는 모델로 코드를 계속 출하합니다. QA 에이전트는 더 저렴한 모델로 테스트를 실행합니다. 둘 다 AgentsRoom MCP 서버를 통해 대화하므로 에이전트 위임은 아무것도 복사하지 않고도 엔드 투 엔드로 작동합니다.

브라우저 클릭마다 Opus 가격을 지불할 필요가 없습니다. 스크린샷과 DOM 덤프로 개발 에이전트의 컨텍스트를 부풀릴 필요도 없습니다. 에이전트 위임은 각 작업을 올바른 가격의 올바른 모델로 라우팅하고, QA 에이전트가 끝나면 개발 에이전트에 핑을 돌려보내므로 루프가 스스로 닫힙니다.

에이전트 위임 실행 중 : Codex 개발 에이전트가 기능을 완료하고 run_qa_test를 호출하면, QA 에이전트가 더 저렴한 모델로 브라우저를 열고 결과를 보고합니다.

에이전트 위임이 해결하는 문제는 이것입니다. 강력한 개발 에이전트 (Claude Opus, Codex, API를 설계하거나 스토어를 리팩토링하는 종류의 모델) 를 돌립니다. 에이전트는 10분 만에 기능을 출하합니다. 그 다음 8분 동안 기능이 작동하는지 확인하려고 브라우저를 클릭하며 돌아다닙니다. 같은 비싼 토큰 단가. 방금까지 도메인 로직을 깊이 생각하던 같은 모델이 이제 버튼 라벨을 읽고 있습니다.

에이전트 위임이 이를 해결합니다. 기능이 끝나면 개발 에이전트는 단일 MCP 도구, run_qa_test를 시나리오와 함께 호출합니다. AgentsRoom은 QA용으로 선택한 모델 (Claude Haiku, Codex mini, GPT-4 mini, 원하는 것 무엇이든) 로 단명 QA 에이전트를 스폰합니다. QA 에이전트는 AgentsRoom Browser MCP를 받고, 페이지를 조작하고, 결과를 검증하고, 판정을 회신합니다. 개발 에이전트는 판정을 읽고 다음으로 넘어갑니다.

그것이 에이전트 위임이며, 이 페이지가 다루는 유일한 루프입니다. 개발 하나, QA 하나, MCP 하나. 시니어 엔지니어가 회귀 테스트를 주니어나 QA에게 위임하는 것과 같은 아이디어입니다 : 시니어는 설계를 계속하고 주니어는 체크리스트를 실행합니다. 에이전트 위임은 모델 사이에서 그 같은 분담을 실현합니다.

AgentsRoom의 에이전트 위임 : Codex 개발 에이전트가 작업을 마쳤고 그 아래에 QA 에이전트가 위임되어 있으며, 에이전트 목록에 'QA for Codex agent' 라벨이 붙어 개발에서 QA로의 핸드오프가 표시됨

에이전트 위임 시각화 : 부모 개발 에이전트 (Codex) 와 자식 QA 에이전트 (Claude) 가 같은 에이전트 목록에 함께 보이며, 개발에서 QA로의 핸드오프가 명확합니다.

에이전트 위임을 연결할 가치

먼저 돈. Claude Opus에서의 테스트 패스 한 번과 Claude Haiku에서의 테스트 패스 한 번은 비용이 자릿수 차이입니다. 같은 브라우저, 같은 어설션, 같은 스크린샷. 에이전트 위임은 저렴한 모델이 저렴한 일을 하도록 합니다. 이를 켠 사람들은 QA가 많은 날의 토큰 청구서를 5에서 10퍼센트가 아니라, 측정 가능한 큰 배수로 떨어뜨렸다고 보고합니다.

다음으로 컨텍스트. 개발 에이전트가 직접 테스트를 실행하면 모든 스크린샷, 모든 DOM 덤프, 모든 콘솔 로그가 개발 에이전트의 컨텍스트 윈도에 남습니다. 20분의 클릭은 개발 에이전트가 세션 내내 끌고 다녀야 할 메가바이트 단위의 잡음입니다. 에이전트 위임은 그 잡음을 단명 QA 에이전트 안에 격리합니다. 개발 에이전트가 돌려받는 것은 깔끔한 '통과' 또는 '실패' 메시지 하나, 그 외에는 아무것도 없습니다.

셋째, 환경적 측면. 에이전트 위임 한 번마다 실제 컴퓨트가 절약됩니다. Opus가 돌던 자리에서 Haiku를 돌리면 그 단계의 에너지 발자국이 절반이 됩니다. 팀 전원과 1년 동안의 모든 테스트 루프로 곱해보면, 에이전트 위임은 스택의 탄소 측면에서 무시할 수 없는 손잡이가 됩니다.

넷째, 신뢰성. 직접 브라우저를 조작하는 개발 에이전트는 헤매기 마련입니다. 스크린샷 두 장 만에 자기가 무엇을 검증하려 했는지 잊어버립니다. 에이전트 위임의 QA 에이전트는 일이 하나, 프롬프트가 하나입니다. 테스트하고, 보고하고, 죽습니다. 루프는 짧고, 예측 가능하며, 디버그하기 쉽습니다.

이 페이지가 다루는 유일한 흐름

개발 에이전트 하나. QA 에이전트 하나. MCP 호출 하나. 엔드 투 엔드 에이전트 위임.

01

개발 에이전트가 기능을 출하한다

당신의 개발 에이전트 (Claude Opus, Codex high reasoning, 신뢰하는 비싼 모델 무엇이든) 가 구현을 마칩니다. 새 엔드포인트, 새 화면, 새 흐름. 코드가 작성되고 파일이 저장됩니다.

02

개발 에이전트가 run_qa_test를 호출한다

직접 브라우저를 여는 대신, 개발 에이전트는 AgentsRoom Test Runner 서버의 MCP 도구 하나, run_qa_test를 평이한 영어 시나리오와 함께 호출합니다. 그것이 에이전트 위임 API 표면의 전부입니다.

03

AgentsRoom이 QA 에이전트를 스폰한다

AgentsRoom Test Runner는 당신이 설정한 더 저렴한 모델 (Claude Haiku, Codex mini, GPT-4 mini) 로 단명 QA 에이전트를 스폰합니다. QA 에이전트는 AgentsRoom Browser MCP 도구들, navigate, click, type, screenshot, evaluate, get_logs, get_state를 받습니다.

04

QA 에이전트가 테스트를 실행한다

QA 에이전트는 페이지를 열고, 시나리오를 따라가고, 결과를 검증하고, 필요시 스크린샷을 캡처하고, 개발 에이전트가 놓쳤을 런타임 에러를 잡기 위해 콘솔 로그를 읽습니다.

05

QA 에이전트가 판정을 제출한다

완료되면 QA 에이전트는 submit_verdict를 호출하여 통과, 실패 또는 판단 불가 결과와 짧은 요약을 회신합니다. 스크린샷과 로그가 첨부됩니다. QA 에이전트 프로세스는 파괴됩니다. 컨텍스트 윈도도 함께 사라집니다.

06

개발 에이전트가 판정을 읽고 진행한다

개발 에이전트는 run_qa_test의 응답으로 판정을 받습니다. 통과면 개발 에이전트는 커밋하거나 다음 티켓으로 이동합니다. 실패면 개발 에이전트는 실패 요약을 읽고, 버그를 고치고, 새로운 에이전트 위임 사이클을 트리거합니다. 루프는 스스로 닫힙니다.

에이전트 위임의 경제학

왜 영리한 개발에서 QA로의 분담이 기준을 낮추지 않고 AI 청구서를 낮추는지.

브라우저 테스트는 반복적입니다. 페이지를 열고, 버튼을 클릭하고, 라벨을 읽고, 토스트를 확인합니다. 100만 토큰당 50달러짜리 모델도 100만 토큰당 3달러짜리 모델도 그 일을 똑같이 잘합니다. 어쩌면 더 잘할 수도 있습니다, 저렴한 모델은 지루해하지 않으니까요. 에이전트 위임은 일의 지루한 절반을 저렴한 모델에 맡깁니다.

실제 세션에서 나온 실제 숫자 : 복잡한 흐름의 전형적인 엔드 투 엔드 테스트는 스크린샷, DOM 덤프, 추론 단계 사이에서 60k에서 200k 토큰을 태웁니다. Opus에서는 테스트당 진짜 돈. Haiku에서는 잔돈. 에이전트 위임은 매일의 QA 습관을 예산 우려에서 무료 반사로 바꿉니다.

모든 루프로 곱해보세요. 비자명한 기능을 다루는 평범한 개발의 하루는 테스트를 5번에서 20번 돌립니다. 에이전트 위임은 그 반복들에 걸쳐 누적됩니다. 개발 에이전트는 비싼 상태로 (당신이 비싸기를 원하니까), QA 에이전트는 저렴한 상태로 유지되고, 그 차이는 순수한 절약입니다.

에이전트 위임은 지구에도 더 친절합니다. 같은 일에 더 적은 컴퓨트는 더 적은 에너지, 데이터센터에서 더 적은 물, 더 적은 탄소를 의미합니다. 에이전트 위임을 연결할 유일한 이유는 아니지만, 작업을 적절한 크기의 모델로 라우팅하는 것의 공정한 부수 효과입니다.

에이전트 위임을 위한 실제 모델 분담

사람들이 에이전트 위임의 개발 측과 QA 측에 실제로 꽂는 것.

개발 측 (의도적으로 비싼 상태 유지)

  • Claude Opus 4.7
  • Claude Sonnet 4.6
  • Codex high reasoning
  • GPT-4 with deep reasoning
  • Gemini 2.5 Pro

QA 측 (더 저렴한 쪽으로 위임)

  • Claude Haiku 4
  • Claude Sonnet 4 (low effort)
  • Codex mini
  • GPT-4 mini
  • Gemini 2.5 Flash

에이전트 위임은 이 매트릭스를 고정하지 않습니다. 프로젝트별로 QA 모델을 구성합니다. 완전히 다른 프로바이더로 에이전트를 위임할 수도 있습니다 : 개발에 Opus, QA에 Codex mini, 공유 컨텍스트 없이, 그저 MCP 호출 하나.

에이전트 위임이 내부에서 실제로 하는 일

에이전트 위임은 AgentsRoom MCP 스택 위에 놓여 있습니다. 개발 에이전트는 자신의 CLI (Claude Code, Codex, Gemini, OpenCode, Aider) 안에서 실행됩니다. AgentsRoom은 그 에이전트에 Test Runner MCP 서버를 주입합니다. Test Runner는 도구 하나, run_qa_test를 노출합니다. 그것이 모든 에이전트 위임 호출의 진입점입니다.

run_qa_test가 발사되면, AgentsRoom은 같은 프로젝트 안에서 다른 설정의 새 CLI 프로세스를 스폰합니다. 그 설정에는 Browser MCP가 붙어 있고, QA 시스템 프롬프트가 붙어 있고, 모델은 당신이 QA 측에 설정한 것으로 바뀌어 있습니다. 새 프로세스는 단명 QA 에이전트입니다 : 테스트가 진행되는 동안 살고 submit_verdict 이후 죽습니다.

QA 에이전트가 실행되는 동안 개발 에이전트는 run_qa_test 호출에서 일시 정지되어 있습니다. AgentsRoom은 QA 에이전트를 같은 에이전트 목록에서, 개발 에이전트 아래에 들여쓰기하여 보여줍니다 (위 이미지에 보임). QA 에이전트가 끝나면 그 판정은 run_qa_test 결과로 반환되고 개발 에이전트는 재개됩니다. 개발 에이전트 관점에서 에이전트 위임은 단일 MCP 왕복입니다.

개발 에이전트는 결코 브라우저 도구를 받지 못합니다. AgentsRoom은 스폰 시점에 개발 에이전트의 허용 목록에서 browser_* 도구를 떼어냅니다. 그것이 에이전트 위임을 신뢰할 수 있게 만드는 부분입니다 : 개발 에이전트는 스크린샷을 잡고 싶은 본능이 있어도, 직접 테스트하는 것으로 폴백할 수 없습니다. 앞으로 나아가는 유일한 길은 run_qa_test입니다. 요청이 아닌 제거에 의한 에이전트 위임.

에이전트 위임이 오늘 돌아가는 곳, 그리고 다음 곳

AgentsRoom의 에이전트 위임은 오늘 브라우저 우선. 같은 모양, 더 많은 표면이 옵니다.

오늘 : 브라우저 테스트 위임

QA 에이전트는 Browser MCP를 통해 AgentsRoom 내장 브라우저를 조작합니다. 로컬호스트 개발 서버, 공개 미리보기 터널, 스테이징 URL, Chromium이 렌더링할 수 있는 모든 것. 폼, 모달, 드래그 앤 드롭, 다이얼로그, 콘솔 로그, 네트워크 에러. 에이전트 위임은 웹 QA 엔지니어가 다룰 전체 표면을 다룹니다.

Electron 앱 테스트 위임

Electron 앱을 직접 출하한다면, 프로젝트에 AgentsRoom Electron MCP 라이브러리를 설치할 수 있습니다. QA 에이전트는 Chromium 탭에 연결하는 것과 같은 방식으로 당신의 Electron 앱에 연결합니다. 에이전트 위임은 개발 측을 전혀 바꾸지 않고도 데스크탑 앱 테스트로 넘어갑니다.

React Native 앱 테스트 위임 (로드맵)

같은 에이전트 위임의 모양이 React Native에도 옵니다. QA 에이전트는 AgentsRoom React Native MCP를 통해 iOS 또는 Android 시뮬레이터를 조작할 것입니다. 개발 에이전트가 화면을 출하하고, QA 에이전트가 그것을 탭하며 진행합니다. 같은 run_qa_test 호출, 같은 개발에서 QA로의 핸드오프, 모바일 타깃.

에이전트 위임 없이 vs 에이전트 위임으로

같은 기능, 같은 QA 패스. 다른 청구서, 다른 컨텍스트, 다른 신뢰성.

에이전트 위임 없이

  • : 개발 에이전트 (비싼) 가 직접 브라우저를 엽니다.
  • : 모든 스크린샷, 모든 DOM 덤프, 모든 콘솔 로그가 개발 에이전트의 컨텍스트에 떨어집니다.
  • : 20분의 클릭이 더 저렴한 모델이 할 일에 Opus 토큰을 태웁니다.
  • : 개발 에이전트는 스크린샷 두 장 만에 무엇을 하고 있었는지 잊습니다.
  • : 브라우저 클릭에 정가를 지불하고, 지구도 정가를 지불합니다.

에이전트 위임으로

  • : 개발 에이전트는 run_qa_test를 호출하고 기다립니다.
  • : 저렴한 QA 에이전트가 클릭, 어설션, 스크린샷 캡처를 합니다.
  • : 오직 판정 (통과, 실패, 요약) 만이 개발 에이전트에 도달합니다.
  • : QA 에이전트는 단명 : submit_verdict 후 죽고, 컨텍스트가 부풀지 않습니다.
  • : 토큰 청구서가 떨어지고, 개발 에이전트는 집중을 유지하며, 루프는 스스로 닫힙니다.

에이전트 위임은 코딩 에이전트 셋업에 연결할 수 있는 가장 저렴한 신뢰성 승리입니다.

에이전트 위임 호출은 이렇게 생겼습니다

개발에서 QA로의 에이전트 위임의 전체 모양입니다. 개발 에이전트는 이것을 Test Runner MCP를 통해 발사하고 응답을 기다립니다.

MCP 도구 호출 (개발 에이전트)

run_qa_test({
  scenario: "Open http://localhost:3000/login.\n  Type the seeded test user in the email field.\n  Submit the form.\n  Assert the dashboard URL is reached and the user's name is shown in the header.\n  Capture a screenshot on success, capture console logs on failure."
})
로컬 우선 에이전트 위임
에이전트 위임은 전적으로 당신의 머신에서 실행됩니다. 개발 에이전트, QA 에이전트, MCP 브리지, 브라우저 : 모두 루프백. 테스트에 대한 어떤 것도 제3자 클라우드로 전송되지 않습니다.
프로바이더 횡단 에이전트 위임
에이전트 위임은 프로바이더를 가로질러 작동합니다. 개발에 Codex, QA에 Claude Haiku. 개발에 Opus, QA에 GPT-4 mini. 에이전트 위임은 프로토콜 문제이지 벤더 문제가 아닙니다.
휴먼 인 더 루프
에이전트 위임이 당신을 잠그지 않습니다. QA 판정을 읽고, QA 에이전트를 라이브로 보고, 멈추거나 재생할 수 있습니다. 에이전트 위임은 레버리지이지 자동 조종이 아닙니다.

FAQ

AgentsRoom의 에이전트 위임이란 무엇입니까 ?

에이전트 위임은 두 AI 코딩 에이전트 사이의 개발에서 QA로의 핸드오프입니다. 개발 에이전트가 기능을 마치고 단일 MCP 도구 (run_qa_test) 를 호출하면, 단명 QA 에이전트가 다른 모델에서 테스트를 실행합니다. 개발 에이전트는 판정을 읽고 진행합니다. 전체 에이전트 위임 흐름은 AgentsRoom MCP 서버를 통해 일어납니다.

도대체 왜 에이전트 위임이 필요한가요 ?

세 가지 이유. 돈 : QA 에이전트가 더 저렴한 모델에서 돌기 때문에 테스트 패스 비용은 개발 모델에서의 비용의 일부에 불과합니다. 컨텍스트 : 개발 에이전트는 깔끔하게 유지되고, 모든 스크린샷과 DOM 덤프는 QA 에이전트와 함께 사라집니다. 신뢰성 : QA 에이전트에는 일이 하나뿐이므로 브라우저 클릭에 멀티태스킹하는 개발 에이전트보다 테스트를 더 잘합니다.

에이전트 위임에서는 어떤 모델이 작동합니까 ?

AgentsRoom이 지원하는 어떤 모델이든 : Claude (Opus, Sonnet, Haiku), Codex (high, mini), Gemini (Pro, Flash), OpenCode, Aider. 에이전트 위임은 프로바이더 횡단입니다. 흔한 분담은 개발 측에 Claude Opus 또는 Codex, QA 측에 Claude Haiku 또는 Codex mini이지만, 당신이 선택합니다.

에이전트 위임은 브라우저 테스트 전용입니까 ?

오늘은 그렇습니다, QA 에이전트가 AgentsRoom 내장 Chromium 브라우저를 조작합니다. 내일은 같은 에이전트 위임의 모양이 Electron 앱 (Electron 프로젝트에 AgentsRoom Electron MCP 라이브러리 설치) 과 React Native 앱 (로드맵, iOS와 Android 시뮬레이터) 을 다룹니다.

에이전트 위임은 어떻게 개발 에이전트가 직접 테스트하는 것을 피합니까 ?

AgentsRoom은 스폰 시점에 개발 에이전트에서 browser_* 도구를 떼어냅니다. 개발 에이전트는 문자 그대로 browser_navigate나 browser_screenshot을 호출할 수 없습니다. 유일한 브라우저 경로는 run_qa_test이고, 그것이 에이전트 위임을 발사합니다. 제약은 기계적이며, 프롬프트 안의 정중한 요청이 아닙니다.

에이전트 위임은 클라우드인가요 로컬인가요 ?

로컬 우선. 개발 에이전트, 단명 QA 에이전트, MCP 브리지, 브라우저가 모두 당신의 머신에서 실행됩니다. 에이전트 위임은 기반 모델 (Claude, Codex, Gemini) 이 자신의 프로바이더와 대화할 때만 클라우드를 사용하며, 이는 일반 에이전트 실행과 정확히 같습니다.

에이전트 위임이 실제로 돈을 절약합니까 ?

네, QA가 많은 날에는 유의미한 배수로. Opus 또는 Codex high에서의 복잡한 엔드 투 엔드 테스트 vs Haiku 또는 Codex mini에서의 같은 테스트는 대략 10배 비용 차이입니다. 팀 전체의 개발 하루 동안의 에이전트 위임은 그 격차를 빠르게 확장시킵니다.

개발 에이전트는 에이전트 위임에서 무엇을 돌려받습니까 ?

짧은 구조화된 판정 : 통과, 실패 또는 판단 불가, 요약과 함께, 선택적 스크린샷 경로와 선택적 콘솔 로그. 컨텍스트에 원시 스크린샷 없음, DOM 덤프 없음. 그것이 에이전트 위임의 핵심입니다 : QA 잡음을 QA 에이전트 안에 격리하기.

QA 에이전트는 실패할 때 백로그 티켓을 생성할 수 있습니까 ?

네. 에이전트 위임은 QA 에이전트에게 Backlog MCP를 줍니다. 실패는 시나리오, 스크린샷, 콘솔 로그가 첨부된 프로젝트의 백로그 티켓으로 떨어질 수 있습니다. 개발 에이전트는 판정을 읽고, 백로그 티켓이 긴 형식의 세부 사항을 운반합니다.

에이전트 위임은 다른 AgentsRoom 기능과 어떻게 위치합니까 ?

에이전트 위임은 Browser Automation (QA 에이전트에 브라우저를 줌) 과 AgentsRoom MCP 서버 (모든 에이전트에 도구 표면을 줌) 위에 놓여 있습니다. Agent Teams는 더 넓은 멀티 에이전트 워크플로 에디터입니다 : 에이전트 위임은 그 워크플로의 개발에서 QA로의 변형이지만, 단일 MCP 호출로 노출되어 어떤 프로바이더의 어떤 에이전트든 그래프를 설정하지 않고 사용할 수 있습니다.

함께 사용하면 좋은

QA 클릭에 Opus 가격을 지불하는 것을 멈추세요

AgentsRoom을 다운로드하고 에이전트 위임을 시도해보세요. 신뢰하는 모델에 개발 에이전트를, 더 저렴한 모델에 QA 에이전트를 연결하고, 개발에서 QA로의 핸드오프가 MCP를 통해 스스로 일어나게 하세요.

무료AgentsRoom 다운로드

컴패니언 앱: 이동 중에도 에이전트를 모니터링

Claude, Codex, Gemini CLI 또는 다른 AI 공급자를 사용하세요.

확장 프로그램 설치
Chrome Web Store

버그와 요청을 공개 백로그로 바로 보내세요.

멀티 프로젝트
멀티 프로바이더
멀티 에이전트
실시간 상태
파일 diff & 커밋
모바일 앱
라이브 프리뷰
에이전트 팀
브라우저 자동화
백로그 기반 개발
프롬프트 라이브러리
스킬 라이브러리