Voice Mode : 에이전트와 말하고, 답하는 목소리를 들으세요

terminal 읽기는 그만.
에이전트와 말하세요.

Voice Mode는 돌아가고 있는 AI 코딩 에이전트와 나누는 양방향 음성 대화입니다. 한 번 탭하고 자기 차례를 말하면, 에이전트가 자연스러운 목소리로 소리 내어 답합니다. 프롬프트를 타이핑할 필요도, 무슨 일이 있었는지 알아내려고 terminal 출력의 벽을 스크롤할 필요도 없습니다.

핸즈프리를 켜면 답하는 사이에도 계속 듣고 있어서, 방 안을 거닐거나 build를 지켜보거나 커피를 홀짝이며 계획을 이야기할 수 있습니다. refactor가 어디까지 왔는지 물으면 알려 줍니다. 테스트를 돌리고 보고하라고 말하면, 실행한 뒤 그 결과를 말로 전합니다.

AgentsRoom Voice Mode : AI 코딩 에이전트와 나누는 양방향 음성 대화, 실시간 표시가 있는 듣는 상태, 핸즈프리 토글, 비프음, 고를 수 있는 답하는 목소리, 언어 자동 감지

실제로 작동하는 Voice Mode : 에이전트가 듣고 있고, 핸즈프리가 켜져 있고, 답하는 목소리가 설정되어 있고, 에이전트가 당신의 차례 사이에 소리 내어 답합니다.

Voice Mode가 응답하는 변화는 이것입니다. 당신의 에이전트는 전보다 오래 돌아가고 더 많은 일을 스스로 해냅니다 : 파일을 편집하고, 명령을 돌리고, 테스트를 쓰고, 망가뜨린 것을 고칩니다. 병목은 더 이상 코드를 쓰는 일이 아니라, 에이전트가 일하는 동안 그 흐름 안에 머무는 일입니다. terminal 출력을 한 줄 한 줄 읽거나, 무슨 일이 벌어지는지 묻기 위해 또 프롬프트를 타이핑하는 것이 매 차례마다 당신을 키보드로 끌어당깁니다.

Voice Mode는 그 반복을 대화로 바꿉니다. 당신이 자기 차례를 소리 내어 말하면, 에이전트가 소리 내어 답합니다. 질문하고, 바로잡고, 계획을 승인하는 모든 것을 목소리로. 그리고 답을 화면에서 해독하는 대신, 자연스러운 목소리로 읽어 주는 것을 듣습니다. 이것은 프로세스를 감시하는 것과 동료와 대화하는 것의 차이입니다.

이것은 음성 받아쓰기와 같지 않습니다. 받아쓰기는 한 방향입니다 : 당신이 말하면 그 말이 composer에 받아 적히고, 에이전트의 답은 여전히 당신이 읽습니다. Voice Mode는 양방향입니다 : 음성이 들어가고 음성이 나오는, 살아 있는 주고받음. 받아쓰기는 프롬프트를 더 빨리 쓰게 돕습니다. Voice Mode는 에이전트를 계속 움직이게 하면서 키보드와 화면을 통째로 건너뛰게 해 줍니다.

타이핑하고 읽는 대신 에이전트와 말하는 이유

핸즈프리로 흐름 안에. 유능한 에이전트는 하나의 지시로 몇 분을 돌아갈 수 있습니다. 핸즈프리 Voice Mode라면 키보드에 붙어 있지 않고도 그 내내 연결되어 있습니다. 상태를 묻고, 다음 단계를 잡아 주고, 결정을 확인하세요. 화이트보드 앞에 서 있거나 앱이 다시 로드되는 것을 지켜보는 동안에도요.

자연스러운 주고받음. 프롬프트를 타이핑하고, 기다리고, 출력을 읽고, 또 타이핑하는 것은 뚝뚝 끊기는 반복입니다. 자기 차례를 말하고 답을 듣는 것은 대화입니다. 짧은 차례(빠른 "응", 작은 수정, 질문 하나 더)에는 더 빠르고, 업데이트마다 terminal의 글자 벽을 읽는 것보다 훨씬 덜 지칩니다.

눈도 화면도 자유롭게. 에이전트의 답이 들리면 무엇을 했는지 알기 위해 terminal을 볼 필요가 없습니다. build나 테스트나 디자인을 곁눈질하거나, 아무것도 보지 않아도, 말로 전해지는 업데이트가 상황을 알려 줍니다. 에이전트가 들려주고, 당신은 진짜 일이 있는 곳에 눈을 둡니다.

같은 voice 크레딧으로. Voice Mode는 AgentsRoom 음성 백엔드를 쓰며, 들어갈 때는 speech-to-text, 나올 때는 text-to-speech로, 받아쓰기와 같은 voice 크레딧 잔액에서 끌어옵니다. 하나의 잔액이 프롬프트 받아쓰기와 완전한 음성 대화를 모두 굴리므로, 따로 연결할 것이 없습니다.

Voice Mode 작동 방식

돌아가는 에이전트에서 열고, 말하고, 듣고, 반복하세요. 타이핑하고 읽는 대신, 말하는 반복.

01

돌아가는 에이전트에서 Voice Mode를 여세요

Voice Mode는 이미 terminal에서 돌아가고 있는 에이전트에 대해, 그 에이전트의 composer에서 시작됩니다. 대화는 그 특정 에이전트와, 그 현재 맥락 속에서 이루어지는 것이지 새 채팅이 아니므로, 살아 있는 세션이 필요합니다.

02

탭해서 말하세요

한 번 탭하고 자기 차례를 말하세요 : 질문, 지시, 수정. 상태가 실시간 표시가 있는 듣기로 바뀌어, 마이크가 잡고 있음을 알 수 있습니다. 차례 사이에도 계속 듣게 하려면 핸즈프리를, 한 번에 한 차례만 가져가려면 tap-to-talk를 고르세요.

03

받아 적어 에이전트로 보냅니다

말을 마치면 당신의 음성이 받아 적혀, 마치 타이핑한 것처럼 돌아가는 에이전트에게 당신의 메시지로 전송됩니다. 상태가 받아쓰기와 전송을 거쳐 진행되므로, 당신의 차례가 pipeline의 어디에 있는지 늘 알 수 있습니다.

04

에이전트가 일합니다

에이전트는 자기 세션에서 당신의 차례를 처리합니다 : 파일을 읽고, 명령을 돌리고, 코드를 편집하고, 테스트를 돌리는, 메시지가 요청한 무엇이든. Voice Mode는 terminal에서의 보통 차례와 똑같이, 일하는 동안 에이전트 이름과 함께 작업 상태를 보여 줍니다.

05

답을 소리로 들으세요

에이전트가 답하면, 그 답이 당신이 고른 목소리로 소리 내어 읽힙니다. 상태, 결과, 다음 질문을 terminal을 읽지 않고 듣습니다. 선택 사항인 비프음이 차례와 차례의 경계를 알려 주어, 다시 당신의 차례임을 알 수 있습니다.

06

다음 차례를 가져가세요

핸즈프리에서는 이미 다시 듣고 있으니, 그냥 계속 말하면 됩니다. tap-to-talk에서는 탭해서 다음 차례를 시작합니다. 대화는 원하는 만큼 이어지고, 그 뒤 Voice Mode를 닫으면 에이전트는 terminal 속에서 당신이 떠난 바로 그 자리에 있습니다.

핸즈프리, 그래서 키보드 없이 흐름 안에 머뭅니다

Voice Mode의 핵심은 신기함이 아닙니다. 책상에 묶이지 않고 빠른 에이전트를 따라가는 것입니다.

현대의 코딩 에이전트는 한 차례에 많은 일을 하고, 차례 사이의 틈이야말로 보통은 맥락을 잃는 곳입니다 : 자리를 뜨고, 에이전트가 끝내고, 돌아오면 이제 읽어야 할 출력으로 가득 찬 화면이 기다립니다. 핸즈프리 Voice Mode는 그 틈을 메웁니다. 에이전트는 끝났을 때 무엇을 했는지 소리 내어 알려 주고, 당신은 다시 앉지 않고 답합니다.

핸즈프리는 차례 사이에도 마이크를 열어 두어, 대화가 전화 통화처럼 흐릅니다 : 당신이 말하고, 에이전트가 일하고, 소리 내어 답하고, 당신이 다시 말합니다. 차례마다 직접 제어하고 싶으세요 ? tap-to-talk는 한 번에 한 차례를 가져가니, 시끄러운 방이나 가끔만 끼어들고 싶을 때 편리합니다.

비프음은 작은 것이지만 실제로는 중요합니다. 화면을 보지 않을 때, 짧은 비프음이 에이전트가 말을 마쳐 당신 차례임을 알려 주어, 말을 겹치거나 끝났는지 모른 채 잠자코 기다리지 않게 해 줍니다.

이것이 Voice Mode를 그저 데모가 아니라 진짜 일에 쓸모 있게 만듭니다. 에이전트가 무거운 일을 떠맡고, 당신이 방향을 잡고, 살펴보고, 승인하고 싶은 순간을 위해 만들어졌으며, 그동안 당신의 손과 눈은 다른 모든 것에 자유롭습니다.

목소리를 고르고, 대화를 따라가세요

Voice Mode는 말하는 대화를 편안하게 만드는 조작을 당신에게 주고, 각 차례가 어디에 있는지 정확히 보여 줍니다.

목소리와 신호

  • 답하는 목소리 : alloy와 다른 자연스러운 목소리들
  • 핸즈프리 : 차례 사이에도 계속 듣기
  • tap-to-talk : 한 번에 한 차례 가져가기
  • 비프음 : 짧은 소리가 각 차례의 경계를 알림
  • 언어 자동 : 당신의 말로 말하면, 언어를 감지함

대화 상태

  • 듣기 : 마이크가 당신의 차례를 잡고 있음
  • 받아쓰기 : 당신의 음성이 텍스트로 바뀌고 있음
  • 전송 : 당신의 메시지가 에이전트로 가고 있음
  • 작업 : 에이전트가 일을 하고 있음
  • 발화 : 에이전트의 답이 소리 내어 읽히고 있음

언어 자동 감지 덕분에 말을 시작하려고 언어를 고를 필요가 없고, 보이는 상태들 덕분에 에이전트가 들었는지, 일하고 있는지, 곧 답할지를 짐작하지 않아도 됩니다.

Voice Mode가 내부에서 실제로 하는 일

Voice Mode는 보통의 에이전트 세션 위에 얹히는 전이중 레이어입니다. 당신의 차례에는 음성을 녹음해 오디오를 AgentsRoom 백엔드로 보내고, 백엔드가 speech-to-text를 실행해 받아쓰기 결과를 돌려줍니다. 그 결과가 돌아가는 에이전트에게 당신의 메시지로 주입되므로, 에이전트 입장에서는 이미 당신과 나누고 있는 대화의 또 한 차례일 뿐입니다.

에이전트의 차례에는 그 텍스트 답이 AgentsRoom 백엔드로 되돌아가 당신이 고른 목소리로 text-to-speech 처리되고, 만들어진 오디오가 당신에게 재생됩니다. 들어갈 때 speech-to-text, 나올 때 text-to-speech, 그 사이에 에이전트의 진짜 일이 있습니다. 그래서 Voice Mode는 계정과 돌아가는 에이전트가 필요합니다 : 음성 백엔드가 speech 모델을 중계하고, 대화가 살아 있는 세션에 묶여 있기 때문입니다.

에이전트는 늘 텍스트만 보므로, Voice Mode는 구조상 프로바이더 중립적입니다. 에이전트가 Claude Code, Codex, Gemini CLI, OpenCode, Aider 중 무엇이든, 받아 적힌 당신의 차례는 메시지로 도착하고 그 답은 같은 방식으로 소리 내어 돌아옵니다. 음성 레이어의 어떤 것도 아래에서 돌아가는 CLI에 의존하지 않습니다.

Voice Mode와 음성 받아쓰기는 둘 다 같은 speech 백엔드에 기대므로 같은 voice 크레딧 잔액을 공유합니다. 받아쓰기는 한 방향 받아쓰기에 크레딧을 씁니다. Voice Mode는 받아쓰기와 말로 하는 답의 왕복에 크레딧을 쓰며, 대화는 당신이 계속 말하는 한 이어지므로 본질적으로 끝이 열려 있습니다.

Voice Mode가 작동하는 곳

돌아가는 데스크톱 에이전트와 나누는 양방향 말하는 대화, 음성이 들어가고 음성이 나옵니다.

데스크톱, 살아 있는 에이전트에서

Voice Mode는 macOS에서 돌아가며, 이미 돌아가고 있는 에이전트의 composer에서 시작됩니다. 그 특정 에이전트와 그 현재 세션에서 말하므로, 대화는 에이전트가 쌓아 온 온전한 맥락을 가지며, 백지가 아닙니다.

음성이 들어감

당신의 차례는 마이크가 잡아 AgentsRoom 음성 백엔드가 받아 적고, 에이전트에게 당신의 메시지로 전송됩니다. 핸즈프리는 차례 사이에도 마이크를 열어 두고, tap-to-talk는 한 번에 한 차례를 가져갑니다. 언어는 자동으로 감지됩니다.

음성이 나옴

에이전트의 답은 당신이 고른 목소리(alloy 등)로 text-to-speech를 통해 소리 내어 읽힙니다. 선택 사항인 비프음이 각 음성 답의 끝을 알려 주어, 화면을 보지 않아도 당신 차례임을 알 수 있습니다.

음성 받아쓰기 vs Voice Mode

둘 다 당신의 목소리를 씁니다. 하나는 프롬프트를 써 주고, 다른 하나는 대화를 나눕니다.

음성 받아쓰기 (한 방향)

  • : 당신이 말하면, 그 말이 composer에 받아 적힙니다.
  • : 에이전트의 답은 여전히 당신이 화면에서 직접 읽습니다.
  • : 길고 정확한 프롬프트를 빠르게 쓰는 데 좋습니다.
  • : 전송하고 결과를 읽으려고 당신은 키보드에 남습니다.
  • : 한 방향 : 음성이 들어가고, 초안에 텍스트, 그다음은 당신 몫.

Voice Mode (양방향)

  • : 당신이 자기 차례를 말하면, 에이전트가 소리 내어 답합니다.
  • : 답이 들리니 terminal을 읽을 필요가 없습니다.
  • : 에이전트가 일하는 동안 방향을 잡고 살펴보는 데 좋습니다.
  • : 핸즈프리가 키보드 없이 대화를 이어 갑니다.
  • : 양쪽 방향 : 음성이 들어가고, 에이전트가 일하고, 음성이 나옵니다.

받아쓰기로 좋은 프롬프트를 몇 초 만에 쓰고, Voice Mode로 그것을 실행하는 에이전트와 말하세요.

말하는 차례는 이렇게 들립니다

이 중 무엇도 직접 타이핑하지 않습니다. 자기 차례를 소리 내어 말하면, 에이전트가 일을 하고, 그 답을 소리 내어 돌려줍니다. 다음은 Voice Mode 대화의 한 차례입니다.

대화 한 차례

당신 : login refactor는 어디까지 왔어 ?
에이전트 : rate limiter는 들어갔고 성공 경로는 그대로입니다. 테스트 두 개가 아직 빨간색입니다.
당신 : 실패하는 테스트 두 개를 고치고, 그다음 전체 스위트를 돌려서 개수를 알려 줘.
에이전트 : 완료했습니다. 둘 다 이제 통과합니다. 전체 스위트 : 142개 통과, 0개 실패.
당신 : 좋아. 짧은 메시지로 commit하고 거기서 멈춰.
모든 차례는 당신이 시작합니다
Voice Mode는 스스로 움직이지 않습니다. 당신이 탭하거나 말해서 차례를 가져가고, 에이전트는 당신이 말한 메시지가 요청한 것만 합니다. tap-to-talk는 차례별 제어를 주고, 핸즈프리는 Voice Mode가 열려 있는 동안만 듣습니다.
계정과 살아 있는 에이전트
Voice Mode는 로그인한 계정이 필요합니다. 음성 백엔드가 speech 모델을 중계하고 voice 크레딧을 청구하기 때문입니다. 그리고 돌아가는 에이전트도 필요합니다. 대화가 그 살아 있는 세션과 그 맥락에 묶여 있기 때문입니다.
모든 에이전트와 작동
에이전트는 텍스트만 보므로, Voice Mode는 Claude Code, Codex, Gemini CLI, OpenCode, Aider에서 똑같이 동작합니다. 음성 레이어는 세션을 감싸며 아래에 어떤 CLI가 있는지에 결코 의존하지 않습니다.

FAQ

AgentsRoom의 Voice Mode란 무엇인가요 ?

Voice Mode는 돌아가는 AI 코딩 에이전트와 나누는 양방향 음성 대화입니다. 탭하고 자기 차례를 말하면 당신의 음성이 받아 적혀 에이전트로 전송되고, 에이전트가 일을 하고, 그 답이 자연스러운 목소리로 당신에게 읽힙니다. 프롬프트를 타이핑하고 terminal 출력을 읽는 대신, 에이전트와 말하고 그 답을 들을 수 있게 해 줍니다.

Voice Mode는 음성 받아쓰기와 어떻게 다른가요 ?

음성 받아쓰기는 한 방향입니다 : 당신이 말하면 그 말이 프롬프트로 composer에 받아 적히고, 그다음 에이전트의 답을 화면에서 읽습니다. Voice Mode는 양방향입니다 : 당신이 자기 차례를 말하면 에이전트가 소리 내어 답하는, 살아 있는 말하는 주고받음. 받아쓰기는 프롬프트를 더 빨리 쓰게 돕고, Voice Mode는 에이전트가 일하는 동안 핸즈프리 대화를 나누게 해 줍니다.

에이전트가 정말 소리 내어 답하나요 ?

네. 에이전트의 답은 text-to-speech로 음성으로 변환되어 당신이 고른 목소리로 소리 내어 재생됩니다. 상태, 결과, 다음 질문이 들리므로, 에이전트가 무엇을 했는지 알기 위해 terminal을 읽지 않아도 됩니다.

핸즈프리 모드란 무엇인가요 ?

핸즈프리는 차례 사이에도 마이크를 열어 두어, 대화가 전화 통화처럼 흐릅니다 : 당신이 말하고, 에이전트가 일하고, 소리 내어 답하고, 이미 당신의 다음 차례를 듣고 있습니다. 차례마다 직접 제어하고 싶다면, tap-to-talk가 한 번에 한 차례를 가져가니 시끄러운 방에서 편리합니다.

목소리를 고를 수 있나요 ?

네. 에이전트의 음성 답에 쓰는 답하는 목소리(alloy와 다른 목소리들)를 고릅니다. 선택 사항인 비프음도 켤 수 있는데, 차례와 차례의 경계에서 짧은 소리를 내어 에이전트가 말을 마쳐 당신 차례가 되었음을 알려 줍니다.

Voice Mode는 어떤 언어를 지원하나요 ?

Voice Mode는 당신이 말하는 언어를 자동으로 감지하므로, 먼저 언어를 고르지 않고 당신의 말로 말할 수 있습니다. 받아쓰기는 AgentsRoom 음성 백엔드가 처리하며, 이는 받아쓰기에 쓰이는 것과 같은 speech 스택입니다.

계정과 돌아가는 에이전트가 필요한가요 ?

둘 다 필요합니다. Voice Mode는 로그인한 계정이 필요합니다. 음성 백엔드가 speech 모델을 중계하고 당신의 voice 크레딧을 끌어오기 때문입니다. 그리고 이미 돌아가고 있는 에이전트도 필요합니다. 대화가 그 살아 있는 세션에 묶여 있고 그 현재 맥락을 쓰기 때문입니다.

Voice Mode는 크레딧을 사용하나요 ?

네. Voice Mode는 받아쓰기와 같은 voice 크레딧 잔액으로 돌아갑니다. 받아쓰기는 당신의 음성을 한 방향으로 받아 적는 데 크레딧을 씁니다. Voice Mode는 받아쓰기와 말로 하는 답의 완전한 왕복에 크레딧을 쓰며, 대화는 당신이 계속 말하는 한 이어지므로 끝이 열려 있습니다.

라이브 웹 데모에서 쓸 수 있나요 ?

아니요. 공개 웹 데모는 백엔드를 모킹하므로 실시간 음성 대화가 거기서는 돌아갈 수 없습니다. 데모에서 Voice Mode를 클릭하면 AgentsRoom 다운로드를 권하는 안내가 표시되며, 거기서는 Voice Mode가 당신의 진짜 에이전트와 말합니다.

Voice Mode가 Claude Code, Codex, Gemini와 작동하나요 ?

네, 그 모두와, 게다가 OpenCode와 Aider까지. 에이전트는 늘 텍스트만 보므로, 당신이 말한 차례는 메시지로 도착하고 그 답은 아래에서 어떤 에이전트 CLI가 돌아가든 같은 방식으로 소리 내어 돌아옵니다.

함께 쓰면 좋은 기능

에이전트와 말하고, 답하는 목소리를 들으세요

AgentsRoom을 다운로드하고 돌아가는 에이전트에서 Voice Mode를 여세요. 자기 차례를 말하고, 답을 듣고, 에이전트가 일하는 동안 핸즈프리로 흐름 안에 머무세요. AI 코딩 IDE에 내장된 양방향 음성 대화.

무료AgentsRoom 다운로드

컴패니언 앱: 이동 중에도 에이전트를 모니터링

Claude, Codex, Gemini CLI 또는 다른 AI 공급자를 사용하세요.

확장 프로그램 설치
Chrome Web Store

버그와 요청을 공개 백로그로 바로 보내세요.

AgentsRoom의 실제 모습.

멀티 프로젝트
멀티 프로바이더
멀티 에이전트
실시간 상태
파일 diff & 커밋
모바일 앱
라이브 프리뷰
에이전트 팀
브라우저 자동화
백로그 기반 개발
프롬프트 라이브러리
스킬 라이브러리
모든 기능 보기