음성 받아쓰기 : 말하면 에이전트가 코딩합니다

프롬프트 타이핑은 그만.
말로 받아쓰게 하세요.

음성 받아쓰기는 에이전트 컴포저 바로 안에 있습니다. 마이크를 클릭하고 프롬프트를 말하면, 변환된 텍스트가 커서 위치의 초안에 그대로 들어갑니다. AI 코딩 에이전트를 위한 음성-텍스트 변환이며, 따로 챙겨야 할 받아쓰기 앱도, 창 사이를 오가는 복사-붙여넣기도 없습니다.

길고 정확한 프롬프트를 타이핑하면 몇 분이 걸립니다. 같은 프롬프트를 음성 입력하면 몇 초면 끝납니다. 에이전트에게 더 많은 맥락을, 확인을 위한 왕복은 더 적게, 낭비되는 토큰도 더 적게. 가치는 코드에서 프롬프트로 옮겨갔고, 음성 받아쓰기는 좋은 프롬프트를 쓰는 가장 빠른 방법입니다.

실제로 작동하는 음성 받아쓰기 : 마이크를 클릭하고 프롬프트를 말하면, 실시간 파형이 움직이고 음성-텍스트 변환 결과가 편집과 전송 준비를 마친 채 컴포저에 들어옵니다.

음성 받아쓰기가 응답하는 변화는 이것입니다. AI 코딩 에이전트와 일할 때 어려운 부분은 더 이상 코드를 쓰는 일이 아닙니다. 그건 에이전트가 합니다. 어려운 부분은 프롬프트를 쓰는 일입니다 : 원하는 것, 제약 조건, 엣지 케이스, 손댈 파일, 피해야 할 동작을 설명하는 일이죠. 정확한 프롬프트는 한 번에 끝내느냐, 답답한 왕복을 열 번 하느냐를 가릅니다. 그리고 정확한 프롬프트는 길어서 타이핑이 느립니다.

음성 받아쓰기는 타이핑이라는 세금을 없앱니다. 컴포저의 마이크 버튼을 클릭하고, 타이핑했을 모든 것을, 흔히 굳이 타이핑하지 않았을 것까지 말하면, 음성-텍스트 변환 결과가 초안에 나타납니다. 사람은 분당 150단어로 말하지만, 분당 150단어로 타이핑하지는 못합니다. 음성 입력은 그냥 더 빠르고, 더 빠른 채널은 작업당 더 많은 맥락을 에이전트에게 준다는 뜻입니다.

이것은 덧붙인 기능이 아닙니다. 마이크는 AgentsRoom 컴포저의 일부로, 프롬프트 라이브러리와 스케치 도구 옆에 있습니다. 변환 결과는 커서 위치에 삽입되므로 같은 초안 안에서 타이핑과 음성 받아쓰기를 섞을 수 있습니다. 무엇도 자동으로 전송되지 않습니다 : 텍스트는 초안에 들어오고, 당신이 읽고, 모델이 잘못 들은 한 단어를 고치고, 준비되면 Enter를 누릅니다. 여기서 음성 받아쓰기는 글쓰기 도우미이지, 자동 조종 장치가 아닙니다.

AgentsRoom 컴포저의 음성 받아쓰기 : 마이크 버튼이 사용자의 음성을 녹음하고 음성-텍스트 변환 결과가 에이전트 프롬프트 초안에 삽입되며, 실시간 음성 파형 시각화가 함께 표시됩니다

마이크 버튼은 컴포저 툴바에 있습니다. 녹음 중에는 실시간 음성 파형이 입력 레벨을 보여주고, 그 다음 변환된 프롬프트가 초안에 나타납니다.

프롬프트를 타이핑하는 대신 음성으로 받아쓰게 하는 이유

속도. 사람은 타이핑보다 몇 배 빠르게 말하며, 자판을 찾느라 생각의 흐름을 잃지도 않습니다. 타이핑하면 3분이 걸릴 두 문단짜리 프롬프트가 30초짜리 음성 받아쓰기가 됩니다. 하루 종일 에이전트에게 프롬프트를 보내다 보면 그 시간은 실제로 몇 시간이 되어 돌아옵니다.

정확성. 음성 입력은 비용이 거의 없으니 더 많이 말하게 됩니다. 건너뛰었을 엣지 케이스, 굳이 지정하지 않았을 파일, 피하길 바라는 동작까지 설명하게 됩니다. 더 풍부한 프롬프트는 더 정확한 프롬프트이고, 더 정확한 프롬프트야말로 AI 코딩 에이전트가 첫 시도에 작업을 해내게 하는 핵심입니다.

토큰 경제성. 에이전트와의 확인 왕복은 매번 토큰을 씁니다 : 에이전트가 묻고, 당신이 답하고, 맥락을 다시 읽습니다. 처음부터 정확하게 음성 입력한 프롬프트는 그런 왕복을 압축해 버립니다. 주고받음이 줄면 같은 결과에 쓰는 토큰이 줄고, 이는 AI 코딩 비용에 그대로 절감으로 이어집니다.

핸즈프리와 모바일. 데스크톱에서는 에이전트가 돌아가는 동안 손을 자유롭게 둔 채 다음 프롬프트를 소리 내어 음성 입력합니다. 휴대폰에서는 음성 받아쓰기가 모바일 키보드와 씨름하지 않고 에이전트에게 정보를 전하는 가장 빠른 방법입니다. 아이디어를 말하면, Mac 위의 에이전트에 들어갑니다.

음성 받아쓰기 작동 방식

마이크 클릭, 말하기, 검토, 전송. 네 단계, 별도 앱도 복사-붙여넣기도 없습니다.

01

컴포저에서 마이크를 클릭하세요

에이전트 컴포저에 커서를 두고 툴바의 마이크 버튼을 클릭하세요. 처음에는 macOS가 마이크 권한을 요청하는데, AgentsRoom이 그 요청을 시스템으로 전달해 한 번만 허용하면 됩니다.

02

프롬프트를 말하세요

버튼이 녹음 상태로 바뀝니다 : 입력 레벨을 실시간으로 보여주는 실시간 음성 파형과 함께 맥동하는 상태라서, 마이크가 실제로 소리를 잡고 있음을 알 수 있습니다. 에이전트가 알아야 할 모든 것을 당신의 언어로 말하세요.

03

멈추면 음성 인식이 변환합니다

다시 클릭해 멈추세요. 오디오는 당신이 고른 변환 모델(기본값 GPT-4o Transcribe, GPT-4o mini Transcribe, 또는 OpenAI Whisper)로 전송됩니다. 음성-텍스트 변환이 진행되는 동안 버튼은 변환 중 상태를 표시합니다.

04

변환 결과가 커서 위치에 들어옵니다

변환된 텍스트가 필요할 때 구분 공백과 함께 커서 위치의 초안에 삽입됩니다. 커서 위치가 복원되므로 계속 타이핑하거나 다른 부분을 음성 입력할 수 있습니다. 같은 프롬프트 안에서 타이핑과 음성 받아쓰기가 자유롭게 섞입니다.

05

검토하고 편집하세요

아직 아무것도 전송되지 않았습니다. 프롬프트는 초안에 남아 있습니다. 읽고, 모델이 드물게 잘못 들은 단어를 고치고, 키보드로 한 줄을 더하고, 문장을 재배치하세요. 에이전트가 실제로 받는 내용을 당신이 온전히 통제합니다.

06

준비되면 전송하세요

Enter를 눌러 타이핑한 메시지와 똑같이 프롬프트를 에이전트에게 전송하세요. 에이전트 입장에서는 그냥 텍스트일 뿐이라, 음성 받아쓰기는 Claude Code, Codex, Gemini CLI, OpenCode, Aider에서 동일하게 작동합니다.

더 빠른 프롬프트, 더 적은 토큰

처음부터 좋은 프롬프트를 음성 입력하는 것이 빈약한 프롬프트를 타이핑하고 반복하는 것보다 저렴한 이유.

빈약한 프롬프트는 시계로는 보이지 않는 방식으로 비쌉니다. 에이전트가 기댈 정보가 부족하니 추측하고, 당신이 고치고, 전체 맥락을 다시 읽고, 또 고칩니다. 그 매번의 차례가 입력 토큰, 출력 토큰, 캐시 읽기입니다. 기능 하나를 명확히 하려는 세 번의 왕복이 그 기능 자체보다 비쌀 수 있습니다.

음성 받아쓰기는 이 계산을 뒤집습니다. 말하는 것이 빠르기에 맥락을 앞단에 몰아넣게 됩니다 : 제약 조건, 파일 경로, 피해야 할 동작, 머릿속의 예시까지. 에이전트는 첫 시도에 더 가깝게 맞춥니다. 30초짜리 음성 받아쓰기를 두세 번의 회피된 확인 사이클과 맞바꾸는 셈입니다.

이것은 복리로 쌓입니다. 평범한 하루는 수십 개의 프롬프트입니다. 음성 받아쓰기가 그 상당수에서 왕복 한 번을 아껴 준다면, 절약된 토큰은 하루에 걸쳐, 팀에 걸쳐, 한 달에 걸쳐 쌓입니다. 가장 저렴한 토큰은 같은 말을 다시 설명하느라 쓸 필요가 아예 없었던 토큰입니다.

그리고 그저 마찰이 줄어듭니다. 마찰이 줄면, 전체 버전을 타이핑하기가 너무 일처럼 느껴져 쳤을 게으른 한 줄짜리 대신, 실제로 더 길고 더 나은 프롬프트를 쓰게 됩니다. 음성 받아쓰기는 좋은 프롬프트를 쉬운 프롬프트로 만듭니다.

변환 모델과 언어를 고르세요

데스크톱의 음성 받아쓰기는 설정에서 음성-텍스트 변환 모델과 말하는 언어를 고를 수 있게 해줍니다.

변환 모델 (데스크톱)

  • GPT-4o Transcribe (기본값, 최고의 다국어 품질)
  • GPT-4o mini Transcribe (거의 비슷한 정확도에 더 저렴)
  • OpenAI Whisper, whisper-1 (분당 단순 과금, 탄탄한 다국어 기본기)

말하는 언어

  • 자동 감지 (기본값, 모델이 언어를 알아냄)
  • English, Français, Español, Deutsch, Italiano, Português
  • Русский, 中文, 日本語, 한국어
  • العربية, हिन्दी, Bahasa Indonesia, Polski, Türkçe, Tiếng Việt

자동 감지가 기본값이며 대부분의 경우를 처리합니다. 짧은 녹음이 잘못 감지될 때는 특정 언어를 지정하되, 실제로 말하는 언어만 지정하세요. 16개 언어에 자동 감지까지, 당신의 말로 음성 입력하면 에이전트는 깔끔한 텍스트를 받습니다.

음성 받아쓰기가 내부에서 실제로 하는 일

데스크톱에서 컴포저는 브라우저의 MediaRecorder API로 당신의 음성을 녹음하고 오디오를 AgentsRoom 변환 백엔드로 보냅니다. 변환은 당신이 고른 모델로 서버 측에서 실행되므로 무거운 음성-텍스트 변환 작업이 당신의 머신에 의존하지 않고, 변환 결과는 커서 위치에 삽입되는 평문으로 돌아옵니다. 마이크, 녹음, 삽입은 모두 당신이 이미 타이핑하던 바로 그 컴포저의 일부입니다.

모바일에서 음성 받아쓰기는 의도적으로 다르게 작동합니다. 컴패니언 앱은 온디바이스 음성 인식을 사용하므로 오디오는 휴대폰을 떠나지 않습니다. 인식된 텍스트는 그다음 AgentsRoom의 종단 간 암호화 연결을 통해 데스크톱으로 전달되어, Mac에서 포커스해 둔 에이전트의 입력란에 들어갑니다. 마이크 버튼을 누른 채 말하고 떼면, 텍스트가 데스크톱 에이전트에 나타납니다.

두 환경 모두 하나의 규칙을 공유합니다 : 음성 받아쓰기는 결코 스스로 전송하지 않습니다. 데스크톱에서는 변환 결과가 검토를 위해 초안에 들어옵니다. 모바일에서는 포커스된 에이전트 입력란에 줄 바꿈 없이 붙여 넣어지므로, Enter는 여전히 당신이 직접 누릅니다. 음성 입력은 프롬프트를 쓰는 방법이지, 눈을 감고 발사하는 방법이 아닙니다.

설정은 프로바이더 중립적입니다. 변환 모델 id는 에이전트 CLI가 아니라 음성-텍스트 변환 백엔드에 매핑됩니다. 에이전트가 Claude Code, Codex, Gemini CLI, OpenCode, Aider 중 무엇이든, 음성 입력한 텍스트는 컴포저 안의 그냥 텍스트일 뿐이라, 음성 받아쓰기는 AgentsRoom이 지원하는 모든 프로바이더에서 동일하게 동작합니다.

음성 받아쓰기가 작동하는 곳

데스크톱 컴포저와 모바일 컴패니언에 내장, 16개 언어 지원.

데스크톱 컴포저

macOS 에이전트 컴포저의 마이크 버튼. GPT-4o Transcribe, GPT-4o mini Transcribe, Whisper로 서버 측 변환. 녹음 중 실시간 음성 파형, 커서 위치에 삽입되는 변환 결과, 타이핑과 자유롭게 혼합. 설정에서 모델과 언어를 고르세요.

모바일 컴패니언

iOS와 Android 컴패니언에서 마이크를 누른 채 음성 입력하세요. 음성 인식이 온디바이스로 실행되어 오디오는 휴대폰에 남고, 인식된 텍스트는 포커스된 데스크톱 에이전트로 종단 간 암호화되어 전달됩니다. 주머니 속에서 에이전트에게 정보를 전하는 가장 빠른 방법.

다국어

16개 말하는 언어에 자동 감지까지 : 영어, 프랑스어, 스페인어, 독일어, 이탈리아어, 포르투갈어, 러시아어, 중국어, 일본어, 한국어, 아랍어, 힌디어, 인도네시아어, 폴란드어, 터키어, 베트남어. 모국어로 음성 입력하면 에이전트는 깔끔하게 변환된 텍스트를 받습니다.

프롬프트 타이핑 vs 음성으로 받아쓰기

같은 에이전트, 같은 작업. 다른 속도, 다른 맥락, 다른 토큰 청구서.

모든 프롬프트를 타이핑하기

  • : 말하는 속도의 일부로만 타이핑하니 프롬프트가 짧게 머뭅니다.
  • : 짧은 프롬프트는 맥락을 건너뛰니 에이전트가 추측하고 당신이 고칩니다.
  • : 매번의 수정이 또 한 번의 왕복이고, 입력과 출력 토큰이 더 듭니다.
  • : 별도 받아쓰기 앱이나 시스템 받아쓰기는 창 사이의 복사-붙여넣기를 뜻합니다.
  • : 휴대폰에서는 모바일 키보드가 긴 프롬프트를 고통스럽게 만들어, 프롬프트를 거의 보내지 않게 됩니다.

음성 받아쓰기로 음성 입력하기

  • : 전체 프롬프트를 몇 초 만에 말하니 자연스럽게 더 많이 말하게 됩니다.
  • : 앞단에 더 많은 맥락이 있으니 에이전트가 첫 시도에 더 가깝게 작업을 해냅니다.
  • : 확인 왕복이 줄어드니 같은 결과에 쓰는 토큰이 줄어듭니다.
  • : 마이크가 컴포저에 있고 변환 결과가 초안에 들어오니 복사-붙여넣기가 없습니다.
  • : 휴대폰에서는 마이크를 누른 채로 두면 암호화된 릴레이를 통해 텍스트가 데스크톱 에이전트에 나타납니다.

음성 받아쓰기는 모든 프롬프트를 더 길고, 더 정확하고, 동시에 더 빠르게 쓰게 만드는 가장 저렴한 방법입니다.

음성으로 받아쓴 프롬프트는 이렇게 들립니다

이 중 무엇도 직접 쓸 필요가 없습니다. 소리 내어 말하면 음성-텍스트 변환이 아래 프롬프트로 바꿔 주고, 당신은 Enter를 누릅니다. 이만큼 자세한 프롬프트를 타이핑으로 말해 보고 시간이 얼마나 걸리는지 느껴 보세요.

마이크에 말한 내용

로그인 엔드포인트에 rate limiter를 추가해.
IP당 분당 다섯 번 시도의 슬라이딩 윈도우를 사용해.
한도에 도달하면 Retry-After 헤더와 함께 429를 반환해.
기존 성공 경로는 그대로 두고.
한도 도달에 대한 유닛 테스트 하나와 1분 뒤 초기화되는 것에 대한 테스트 하나를 추가해.
가입 엔드포인트는 건드리지 마.
자동으로 전송되는 것은 없습니다
음성 받아쓰기는 초안에 쓰지, 결코 전송하지 않습니다. 당신은 항상 변환 결과를 읽고, 편집하고, 직접 Enter를 누릅니다. 음성 입력은 더 빠른 키보드이지, 자동 조종 장치가 아닙니다.
모바일에서는 온디바이스
휴대폰에서 음성 인식은 온디바이스로 실행됩니다 : 오디오는 당신의 기기를 떠나지 않습니다. 인식된 텍스트는 AgentsRoom의 종단 간 암호화 릴레이를 통해 당신의 Mac으로 이동합니다.
모든 에이전트와 작동
음성 입력한 텍스트는 컴포저 안의 그냥 텍스트일 뿐이라, 음성 받아쓰기는 Claude Code, Codex, Gemini CLI, OpenCode, Aider에서 동일하게 작동합니다. 설계부터 프로바이더 중립적입니다.

FAQ

AgentsRoom의 음성 받아쓰기란 무엇인가요 ?

음성 받아쓰기는 당신의 말을 텍스트로 바꿔 주는 에이전트 컴포저 안의 마이크 버튼입니다. 마이크를 클릭하고 프롬프트를 말하면, 변환된 텍스트가 커서 위치의 초안에 삽입됩니다. AI 코딩 에이전트에게 프롬프트를 쓰기 위한 내장 음성-텍스트 변환이며, 별도 받아쓰기 앱도 창 사이의 복사-붙여넣기도 없습니다.

왜 프롬프트를 타이핑하는 대신 음성으로 받아쓰게 하나요 ?

속도, 정확성, 그리고 토큰 경제성입니다. 사람은 타이핑보다 몇 배 빠르게 말하니 프롬프트가 몇 분이 아니라 몇 초면 됩니다. 음성 입력은 비용이 거의 없어 자연스럽게 더 많이 말하게 되고, 그래서 프롬프트가 더 정확해집니다. 정확한 프롬프트는 에이전트와의 확인 왕복을 줄이고, 그것은 같은 결과에 쓰는 토큰을 줄인다는 뜻입니다.

어떤 변환 모델을 쓸 수 있나요 ?

데스크톱에서는 설정에서 세 가지 음성-텍스트 변환 모델 중 고릅니다 : GPT-4o Transcribe (기본값, 최고의 다국어 품질), GPT-4o mini Transcribe (거의 비슷한 정확도에 더 저렴), 그리고 OpenAI Whisper, 즉 분당 단순 과금에 탄탄한 다국어 기본기를 갖춘 whisper-1 모델.

그냥 OpenAI Whisper 아닌가요 ?

Whisper는 고를 수 있는 모델 중 하나로, 옆에서 별도 앱으로 돌아가는 대신 컴포저에 곧바로 내장되어 있습니다. GPT-4o Transcribe나 GPT-4o mini Transcribe도 고를 수 있습니다. AgentsRoom 음성 받아쓰기의 핵심은 받아쓰기가 에이전트의 프롬프트 입력란을 직접 겨냥한다는 점이라, 한 창에 음성 입력하고 다른 창으로 복사-붙여넣기 하지 않아도 됩니다.

음성 받아쓰기는 어떤 언어를 지원하나요 ?

16개 말하는 언어에 자동 감지까지 : 영어, 프랑스어, 스페인어, 독일어, 이탈리아어, 포르투갈어, 러시아어, 중국어, 일본어, 한국어, 아랍어, 힌디어, 인도네시아어, 폴란드어, 터키어, 베트남어. 자동 감지가 기본값입니다. 짧은 녹음이 잘못 감지될 때 설정에서 특정 언어를 지정할 수 있습니다.

제 음성이 서버로 전송되나요 ?

환경에 따라 다릅니다. 데스크톱에서는 오디오가 AgentsRoom 변환 백엔드로 전송되어 당신이 고른 모델로 음성-텍스트 변환을 실행하고 텍스트를 반환합니다. 모바일에서는 음성 인식이 온디바이스로 실행되므로 오디오는 휴대폰을 떠나지 않고, 인식된 텍스트만 종단 간 암호화 연결을 통해 데스크톱으로 전달됩니다.

음성 입력 후 프롬프트가 자동으로 전송되나요 ?

아니요. 음성 받아쓰기는 항상 텍스트를 초안에 들여놓을 뿐, 결코 전송하지 않습니다. 당신은 변환 결과를 읽고, 드물게 잘못 들은 단어를 고치고, 원하면 키보드로 더하거나 재배치하고, 준비되면 Enter를 누릅니다. 에이전트가 받는 내용을 정확히 당신이 통제합니다.

같은 프롬프트에서 타이핑과 음성 받아쓰기를 섞을 수 있나요 ?

네. 변환 결과는 초안 전체를 대체하는 게 아니라 커서 위치에 삽입됩니다. 그래서 앞부분을 타이핑하고, 중간에 긴 문단을 음성 입력하고, 마지막 줄을 다시 타이핑할 수 있습니다. 음성 받아쓰기는 컴포저를 채우는 더 빠른 방법이며, 키보드와 완전히 호환됩니다.

휴대폰에서 Mac의 에이전트로 음성 입력할 수 있나요 ?

네. 모바일 컴패니언 앱에는 마이크 버튼이 있습니다 : 누른 채로 말하고 떼세요. 음성은 온디바이스로 인식되고 텍스트는 종단 간 암호화되어 데스크톱에서 포커스해 둔 에이전트로 전달됩니다. 모바일 키보드 없이 Mac 에이전트에게 프롬프트를 전하는 가장 빠른 방법입니다.

음성 받아쓰기가 Claude Code, Codex, Gemini와 작동하나요 ?

네, 그 모두와, 게다가 OpenCode와 Aider까지. 음성 입력한 텍스트는 컴포저 안의 그냥 텍스트이고, 변환 설정은 프로바이더 중립적이라, 어떤 에이전트 CLI를 돌리든 음성 받아쓰기는 동일하게 동작합니다.

함께 쓰면 좋은 기능

에이전트에게 말로 전하고, 프롬프트 타이핑은 그만

AgentsRoom을 다운로드하고 프롬프트를 컴포저에 곧바로 음성 입력하세요. 쓰기는 더 빠르고, 맥락은 더 풍부하고, 토큰은 더 가볍게. AI 코딩 IDE에 내장된 음성 받아쓰기, 데스크톱과 모바일에서.

무료AgentsRoom 다운로드

컴패니언 앱: 이동 중에도 에이전트를 모니터링

Claude, Codex, Gemini CLI 또는 다른 AI 공급자를 사용하세요.

확장 프로그램 설치
Chrome Web Store

버그와 요청을 공개 백로그로 바로 보내세요.

AgentsRoom의 실제 모습.

멀티 프로젝트
멀티 프로바이더
멀티 에이전트
실시간 상태
파일 diff & 커밋
모바일 앱
라이브 프리뷰
에이전트 팀
브라우저 자동화
백로그 기반 개발
프롬프트 라이브러리
스킬 라이브러리
모든 기능 보기