Voice Mode : nói chuyện với agent, nghe agent đáp lại

Đừng đọc terminal nữa.
Hãy nói chuyện với agent của bạn.

Voice Mode là một cuộc trò chuyện bằng giọng nói hai chiều với một agent code AI đang chạy. Chạm một lần, nói lượt của bạn, và agent trả lời thành tiếng bằng một giọng tự nhiên. Không cần gõ prompt, không cần cuộn cả bức tường output terminal để biết chuyện gì đã xảy ra.

Bật chế độ rảnh tay và nó tiếp tục lắng nghe giữa các câu trả lời, nên bạn có thể đi lại trong phòng, ngắm bản build, hay nhấp ngụm cà phê trong khi bàn về kế hoạch. Hỏi refactor đang tới đâu, nó trả lời bạn. Bảo chạy test rồi báo cáo lại, nó làm, rồi đọc kết quả lên.

Voice Mode AgentsRoom : một cuộc trò chuyện bằng giọng nói hai chiều với agent code AI, trạng thái đang lắng nghe với chỉ báo trực tiếp, nút bật rảnh tay, tiếng bíp báo hiệu, giọng trả lời có thể chọn và tự động nhận diện ngôn ngữ

Voice Mode trong thực tế : agent đang lắng nghe, chế độ rảnh tay đã bật, giọng trả lời đã được chọn, và agent đáp lại thành tiếng giữa các lượt của bạn.

Đây là sự dịch chuyển mà Voice Mode hướng tới. Agent của bạn chạy lâu hơn và tự làm nhiều việc hơn : nó sửa file, chạy lệnh, viết test, sửa lại những gì nó làm hỏng. Nút thắt cổ chai không còn là viết code, mà là theo sát trong khi agent làm việc. Đọc từng dòng output terminal, hay gõ thêm một prompt nữa để hỏi đang xảy ra chuyện gì, kéo bạn về lại bàn phím ở mỗi lượt.

Voice Mode biến vòng lặp đó thành một cuộc trò chuyện. Bạn nói lượt của mình thành tiếng, agent trả lời thành tiếng. Bạn đặt câu hỏi, đưa ra một chỉnh sửa, duyệt một kế hoạch, tất cả bằng giọng nói, và bạn nghe câu trả lời được đọc lên bằng một giọng tự nhiên thay vì phải dò trên màn hình. Đó là khác biệt giữa giám sát một quy trình và trò chuyện với một đồng đội.

Đây không phải là đọc chính tả bằng giọng nói. Đọc chính tả là một chiều : bạn nói, nó chép lời bạn vào composer, và bạn vẫn phải đọc câu trả lời của agent. Voice Mode là hai chiều : giọng nói vào, giọng nói ra, một cuộc trao đổi qua lại trực tiếp. Đọc chính tả giúp bạn viết prompt nhanh hơn. Voice Mode giúp bạn bỏ hẳn bàn phím và màn hình trong khi vẫn giữ cho agent tiến tới.

Vì sao nên nói chuyện với agent thay vì gõ và đọc

Theo sát, rảnh tay. Một agent có năng lực có thể chạy nhiều phút chỉ từ một chỉ thị. Với Voice Mode ở chế độ rảnh tay, bạn giữ liên lạc suốt thời gian đó mà không phải ngồi gí vào bàn phím. Hỏi trạng thái, lái bước tiếp theo, xác nhận một quyết định, tất cả trong khi bạn đứng ở bảng trắng hay ngắm ứng dụng tải lại.

Một cuộc trao đổi qua lại tự nhiên. Gõ một prompt, chờ, đọc output, gõ lại là một vòng lặp giật cục. Nói lượt của bạn và nghe câu trả lời là một cuộc trò chuyện. Nó nhanh hơn cho những lượt ngắn (một tiếng ừ nhanh, một chỉnh sửa nhỏ, thêm một câu hỏi) và đỡ mệt hơn nhiều so với việc đọc cả bức tường chữ terminal ở mỗi cập nhật.

Rảnh mắt, rảnh màn hình. Nghe câu trả lời của agent nghĩa là bạn không cần nhìn terminal để biết nó đã làm gì. Liếc qua bản build, các test, thiết kế của bạn, hay chẳng nhìn gì cả, và để bản cập nhật bằng giọng nói cho bạn biết mọi thứ đang ở đâu. Agent thuật lại, bạn giữ mắt ở nơi công việc thật sự diễn ra.

Trên cùng một số tín dụng giọng nói. Voice Mode dùng backend giọng nói của AgentsRoom, chuyển giọng nói thành văn bản ở chiều vào và văn bản thành giọng nói ở chiều ra, rút từ cùng số dư tín dụng giọng nói như đọc chính tả. Một số dư cấp năng lượng cho cả việc đọc chính tả prompt lẫn các cuộc trò chuyện bằng giọng nói đầy đủ, nên không có gì phải thiết lập thêm.

Voice Mode hoạt động thế nào

Mở nó trên một agent đang chạy, nói, nghe, lặp lại. Một vòng lặp bằng giọng nói thay vì gõ-và-đọc.

01

Mở Voice Mode trên một agent đang chạy

Voice Mode khởi chạy cho một agent đã đang chạy trong terminal của nó, từ composer của agent đó. Nó cần một phiên đang hoạt động vì cuộc trò chuyện là với chính agent cụ thể đó, trong ngữ cảnh hiện tại của nó, chứ không phải một cuộc chat mới tinh.

02

Chạm để nói

Chạm một lần và nói lượt của bạn : một câu hỏi, một chỉ thị, một chỉnh sửa. Trạng thái chuyển sang đang lắng nghe với một chỉ báo trực tiếp, nên bạn thấy được micro đang thu. Chọn rảnh tay để nó tiếp tục lắng nghe giữa các lượt, hoặc chạm-để-nói để xử lý từng lượt một.

03

Nó chép lại và gửi cho agent

Khi bạn nói xong, lời của bạn được chép lại và gửi vào agent đang chạy như tin nhắn của bạn, y như thể bạn đã gõ nó. Trạng thái đi qua đang chép lại rồi đang gửi, nên bạn luôn biết lượt của mình đang ở đâu trong quy trình.

04

Agent làm việc

Agent xử lý lượt của bạn trong phiên của riêng nó : nó có thể đọc file, chạy lệnh, sửa code, chạy test, bất cứ điều gì tin nhắn của bạn yêu cầu. Voice Mode hiển thị trạng thái đang làm việc kèm tên agent trong khi nó làm việc, hệt như một lượt bình thường trong terminal.

05

Nghe câu trả lời được đọc lên

Khi agent trả lời, câu trả lời của nó được đọc thành tiếng bằng giọng bạn đã chọn. Bạn nghe trạng thái, kết quả, câu hỏi tiếp theo, mà không cần đọc terminal. Một tiếng bíp tùy chọn đánh dấu ranh giới giữa các lượt để bạn biết khi nào lại đến lượt mình.

06

Đến lượt tiếp theo của bạn

Ở chế độ rảnh tay, nó đã lắng nghe lại rồi, nên bạn chỉ việc nói tiếp. Ở chế độ chạm-để-nói, bạn chạm để bắt đầu lượt tiếp theo. Cuộc trò chuyện kéo dài bao lâu tùy bạn, rồi bạn đóng Voice Mode và agent vẫn ở đúng chỗ bạn để lại trong terminal của nó.

Rảnh tay, để bạn theo sát mà không cần bàn phím

Điểm cốt lõi của Voice Mode không phải sự mới lạ. Đó là theo kịp một agent nhanh mà không bị xích vào bàn làm việc.

Một agent code hiện đại làm rất nhiều mỗi lượt, và những khoảng trống giữa các lượt của bạn là lúc bình thường bạn sẽ mất ngữ cảnh : bạn đi chỗ khác, agent làm xong, và bạn quay lại với một màn hình đầy output mà giờ bạn phải đọc. Voice Mode rảnh tay khép lại khoảng trống đó. Agent cho bạn biết nó đã làm gì khi xong, thành tiếng, và bạn trả lời mà không cần ngồi lại.

Rảnh tay giữ micro mở giữa các lượt, nên cuộc trò chuyện trôi như một cuộc gọi điện thoại : bạn nói, nó làm, nó nói, bạn nói tiếp. Thích kiểm soát từng lượt ? Chạm-để-nói xử lý từng lượt một, tiện trong phòng ồn ào hoặc khi bạn chỉ muốn thỉnh thoảng xen vào.

Tiếng bíp báo hiệu là một chi tiết nhỏ nhưng quan trọng trong thực tế. Khi bạn không nhìn màn hình, một tiếng bíp ngắn cho bạn biết agent đã nói xong và tới lượt bạn, nên bạn không nói chen vào hay ngồi chờ trong im lặng tự hỏi nó xong chưa.

Đây là điều khiến Voice Mode hữu ích cho công việc thật chứ không chỉ là một bản demo. Nó được làm cho những lúc agent đang gánh phần nặng và bạn muốn lái, kiểm tra và duyệt, trong khi tay và mắt bạn rảnh cho mọi việc khác.

Chọn giọng của bạn, theo dõi cuộc trò chuyện

Voice Mode cho bạn những điều khiển giúp một cuộc trò chuyện bằng giọng nói trở nên thoải mái, và cho bạn thấy chính xác mỗi lượt đang ở đâu.

Giọng nói và tín hiệu

  • Giọng trả lời : alloy và các giọng tự nhiên khác
  • Rảnh tay : tiếp tục lắng nghe giữa các lượt
  • Chạm-để-nói : từng lượt một
  • Tiếng bíp : một âm ngắn đánh dấu ranh giới mỗi lượt
  • Ngôn ngữ tự động : nói bằng lời của bạn, nó nhận diện ngôn ngữ

Các trạng thái cuộc trò chuyện

  • Đang lắng nghe : micro đang thu lượt của bạn
  • Đang chép lại : lời nói của bạn đang được chuyển thành văn bản
  • Đang gửi : tin nhắn của bạn đang đi tới agent
  • Đang làm việc : agent đang làm việc
  • Đang nói : câu trả lời của agent đang được đọc lên

Tự động nhận diện ngôn ngữ nghĩa là bạn không phải chọn ngôn ngữ để bắt đầu nói, và các trạng thái hiển thị nghĩa là bạn không bao giờ phải đoán xem agent đã nghe thấy bạn, đang làm việc, hay sắp trả lời.

Voice Mode thật sự làm gì bên dưới

Voice Mode là một lớp song công toàn phần đặt trên một phiên agent bình thường. Đến lượt bạn, nó ghi giọng nói của bạn và gửi audio tới backend AgentsRoom, nơi chạy chuyển giọng nói thành văn bản và trả về bản chép. Bản chép đó được tiêm vào agent đang chạy như tin nhắn của bạn, nên từ góc nhìn của agent, đây chỉ là thêm một lượt nữa trong cuộc trò chuyện nó vốn đang có với bạn.

Đến lượt agent, câu trả lời dạng văn bản của nó được gửi ngược về backend AgentsRoom để chuyển văn bản thành giọng nói bằng giọng bạn đã chọn, và audio thu được được phát cho bạn. Giọng nói thành văn bản ở chiều vào, văn bản thành giọng nói ở chiều ra, với công việc thật của agent diễn ra ở giữa. Đó là lý do Voice Mode cần một tài khoản và một agent đang chạy : backend giọng nói làm proxy cho các mô hình giọng nói và cuộc trò chuyện gắn với một phiên đang hoạt động.

Vì agent chỉ luôn thấy văn bản, Voice Mode trung lập với nhà cung cấp ngay từ thiết kế. Dù agent là Claude Code, Codex, Gemini CLI, OpenCode hay Aider, lượt đã chép của bạn đến như một tin nhắn và câu trả lời của nó được đọc lên theo cùng một cách. Không có gì trong lớp giọng nói phụ thuộc vào CLI nào đang chạy bên dưới.

Voice Mode và Đọc chính tả bằng giọng nói dùng chung số dư tín dụng giọng nói, vì cả hai đều dựa trên cùng một backend giọng nói. Đọc chính tả tiêu tín dụng để chép một chiều; Voice Mode tiêu chúng cho hành trình khứ hồi gồm chép lại cộng các câu trả lời bằng giọng nói, vốn không có giới hạn về bản chất vì một cuộc trò chuyện có thể kéo dài bao lâu tùy bạn nói.

Voice Mode hoạt động ở đâu

Một cuộc trò chuyện bằng giọng nói hai chiều với một agent desktop đang chạy, giọng nói vào và giọng nói ra.

Desktop, trên một agent đang hoạt động

Voice Mode chạy trên macOS, khởi chạy từ composer của một agent đã đang chạy. Nó nói chuyện với chính agent cụ thể đó trong phiên hiện tại của nó, nên cuộc trò chuyện có đầy đủ ngữ cảnh mà agent đã tích lũy, chứ không phải một tờ giấy trắng.

Giọng nói vào

Lượt của bạn được micro thu và backend giọng nói của AgentsRoom chép lại, rồi gửi tới agent như tin nhắn của bạn. Rảnh tay giữ micro mở giữa các lượt; chạm-để-nói xử lý từng lượt một. Ngôn ngữ tự động nhận diện.

Giọng nói ra

Câu trả lời của agent được đọc thành tiếng bằng chuyển văn bản thành giọng nói với giọng bạn chọn (alloy và các giọng khác). Một tiếng bíp tùy chọn đánh dấu kết thúc mỗi câu trả lời bằng giọng nói để bạn biết đến lượt mình, kể cả khi bạn không nhìn màn hình.

Đọc chính tả bằng giọng nói vs Voice Mode

Cả hai đều dùng giọng nói của bạn. Một cái viết prompt giúp bạn, cái kia tổ chức một cuộc trò chuyện.

Đọc chính tả bằng giọng nói (một chiều)

  • : Bạn nói, nó chép lời bạn vào composer.
  • : Bạn vẫn tự đọc câu trả lời của agent trên màn hình.
  • : Tuyệt cho việc viết nhanh một prompt dài, chính xác.
  • : Bạn vẫn ngồi ở bàn phím để gửi và để đọc kết quả.
  • : Một chiều : giọng nói vào, văn bản trong bản nháp, phần còn lại tùy bạn.

Voice Mode (hai chiều)

  • : Bạn nói lượt của mình, agent trả lời thành tiếng.
  • : Bạn nghe câu trả lời, không cần đọc terminal.
  • : Tuyệt cho việc lái và kiểm tra trong khi agent làm việc.
  • : Rảnh tay giữ cuộc trò chuyện tiếp diễn mà không cần bàn phím.
  • : Cả hai chiều : giọng nói vào, agent làm việc, giọng nói ra.

Dùng đọc chính tả để viết một prompt tốt trong vài giây, và Voice Mode để trò chuyện với agent trong khi nó thực thi prompt đó.

Một lượt nói nghe như thế nào

Bạn không gõ bất cứ thứ gì trong này. Bạn nói lượt của mình thành tiếng, agent làm việc, và nó đọc câu trả lời lại cho bạn. Đây là một vòng của cuộc trò chuyện Voice Mode.

Một vòng trò chuyện

Bạn: Chúng ta đang tới đâu trong việc refactor login?
Agent: Bộ giới hạn tần suất đã có và đường thành công vẫn nguyên vẹn. Hai test vẫn đỏ.
Bạn: Sửa hai test đang lỗi, rồi chạy toàn bộ suite và báo tôi con số.
Agent: Xong. Cả hai đã pass. Suite đầy đủ: 142 đạt, 0 lỗi.
Bạn: Tốt. Commit với một thông điệp ngắn rồi dừng ở đó.
Bạn bắt đầu mỗi lượt
Voice Mode không tự hành động. Bạn chạm hoặc nói để vào lượt, và agent chỉ làm điều mà tin nhắn nói của bạn yêu cầu. Chạm-để-nói cho bạn quyền kiểm soát từng lượt; rảnh tay chỉ lắng nghe khi Voice Mode đang mở.
Tài khoản và agent đang hoạt động
Voice Mode cần một tài khoản đã đăng nhập, vì backend giọng nói làm proxy cho các mô hình giọng nói và tính phí tín dụng giọng nói, và một agent đang chạy, vì cuộc trò chuyện gắn với phiên đang hoạt động đó và ngữ cảnh của nó.
Hoạt động với mọi agent
Agent chỉ thấy văn bản, nên Voice Mode hành xử giống nhau với Claude Code, Codex, Gemini CLI, OpenCode và Aider. Lớp giọng nói bao quanh phiên và không bao giờ phụ thuộc vào CLI nào ở bên dưới.

FAQ

Voice Mode trong AgentsRoom là gì ?

Voice Mode là một cuộc trò chuyện bằng giọng nói hai chiều với một agent code AI đang chạy. Bạn chạm và nói lượt của mình, lời nói của bạn được chép lại và gửi cho agent, agent làm việc, và câu trả lời của nó được đọc lại cho bạn thành tiếng bằng một giọng tự nhiên. Nó cho phép bạn trò chuyện với một agent và nghe câu trả lời thay vì gõ prompt và đọc output terminal.

Voice Mode khác đọc chính tả bằng giọng nói thế nào ?

Đọc chính tả bằng giọng nói là một chiều : bạn nói và lời của bạn được chép vào composer dưới dạng prompt, rồi bạn đọc câu trả lời của agent trên màn hình. Voice Mode là hai chiều : bạn nói lượt của mình và agent trả lời thành tiếng, một cuộc trao đổi bằng giọng nói trực tiếp. Đọc chính tả giúp bạn viết prompt nhanh hơn; Voice Mode cho phép bạn duy trì một cuộc trò chuyện rảnh tay trong khi agent làm việc.

Agent có thật sự đáp lại bằng giọng nói không ?

Có. Câu trả lời của agent được chuyển thành giọng nói bằng chuyển văn bản thành giọng nói và phát thành tiếng bằng giọng bạn chọn. Bạn nghe trạng thái, kết quả và câu hỏi tiếp theo, nên bạn không phải đọc terminal để biết agent đã làm gì.

Chế độ rảnh tay là gì ?

Rảnh tay giữ micro mở giữa các lượt, nên cuộc trò chuyện trôi như một cuộc gọi điện thoại : bạn nói, agent làm việc, nó nói, và nó đã lắng nghe lượt tiếp theo của bạn. Nếu bạn thích kiểm soát từng lượt, chạm-để-nói xử lý từng lượt một, tiện trong phòng ồn ào.

Tôi có thể chọn giọng không ?

Có. Bạn chọn giọng trả lời (alloy và các giọng khác) dùng cho câu trả lời bằng giọng nói của agent. Bạn cũng có thể bật một tiếng bíp báo hiệu tùy chọn, phát một âm ngắn ở ranh giới giữa các lượt để bạn biết khi nào agent nói xong và tới lượt bạn.

Voice Mode hỗ trợ những ngôn ngữ nào ?

Voice Mode tự động nhận diện ngôn ngữ bạn nói, nên bạn có thể nói bằng lời của mình mà không cần chọn ngôn ngữ trước. Phần chép lại được backend giọng nói của AgentsRoom xử lý, cùng một bộ giọng nói được dùng cho đọc chính tả.

Tôi có cần tài khoản và một agent đang chạy không ?

Có với cả hai. Voice Mode cần một tài khoản đã đăng nhập vì backend giọng nói làm proxy cho các mô hình giọng nói và rút từ tín dụng giọng nói của bạn, và nó cần một agent đã đang chạy, vì cuộc trò chuyện gắn với phiên đang hoạt động đó và dùng ngữ cảnh hiện tại của nó.

Voice Mode có dùng tín dụng không ?

Có. Voice Mode chạy trên cùng số dư tín dụng giọng nói như đọc chính tả. Đọc chính tả tiêu tín dụng để chép lời nói của bạn một chiều; Voice Mode tiêu chúng cho cả hành trình khứ hồi gồm chép lại cộng các câu trả lời bằng giọng nói, vốn không có giới hạn vì một cuộc trò chuyện có thể kéo dài bao lâu tùy bạn nói.

Nó có sẵn trong bản demo web trực tiếp không ?

Không. Bản demo web công khai giả lập backend, nên cuộc trò chuyện bằng giọng nói thời gian thực không thể chạy ở đó. Nhấp vào Voice Mode trong bản demo sẽ hiện một thông báo mời bạn tải AgentsRoom, nơi Voice Mode nói chuyện với các agent thật của bạn.

Voice Mode có hoạt động với Claude Code, Codex và Gemini không ?

Có, với tất cả, cộng thêm OpenCode và Aider. Agent chỉ luôn thấy văn bản, nên lượt nói của bạn đến như một tin nhắn và câu trả lời được đọc lên theo cùng một cách, bất kể CLI agent nào đang chạy bên dưới.

Kết hợp tốt với

Nói chuyện với agent của bạn, nghe chúng đáp lại

Tải AgentsRoom và mở Voice Mode trên một agent đang chạy. Nói lượt của bạn, nghe câu trả lời, và theo sát rảnh tay trong khi agent làm việc. Một cuộc trò chuyện bằng giọng nói hai chiều tích hợp ngay trong IDE code AI của bạn.

Miễn phíTải AgentsRoom

Ứng dụng đồng hành: theo dõi agent khi đi đường

Sử dụng Claude, Codex, Gemini CLI hoặc nhà cung cấp AI khác.

Tải tiện ích mở rộng
Chrome Web Store

Gửi lỗi và yêu cầu thẳng vào backlog công khai của bạn.

Một cái nhìn về AgentsRoom đang hoạt động.

Nhiều dự án
Đa nhà cung cấp
Nhiều agent
Trạng thái trực tiếp
File diff & commit
Ứng dụng đồng hành mobile
Xem trước trực tiếp
Đội agent
Tự động hóa trình duyệt
Dev theo backlog
Thư viện prompt
Thư viện skill
Xem tất cả tính năng