Đừng gõ prompt nữa.
Hãy đọc chúng.
Đọc chính tả bằng giọng nói nằm ngay trong composer của agent. Bấm micro, nói prompt của bạn, và văn bản đã chuyển giọng nói thành văn bản rơi vào bản nháp ngay tại vị trí con trỏ. Speech-to-text cho các agent code AI của bạn, không cần app đọc chính tả riêng phải trông chừng và không cần copy-paste giữa các cửa sổ.
Gõ một prompt dài và chính xác tốn vài phút. Đọc cùng prompt đó chỉ mất vài giây. Nhiều ngữ cảnh hơn cho agent, ít vòng làm rõ qua lại hơn, ít token bị lãng phí hơn. Giá trị đã chuyển từ code sang prompt, và đọc chính tả bằng giọng nói là cách nhanh nhất để viết một prompt tốt.
Đọc chính tả bằng giọng nói trong thực tế : bấm micro, nói prompt, xem dạng sóng âm trực tiếp, và bản chuyển giọng nói thành văn bản rơi vào composer, sẵn sàng để chỉnh sửa và gửi.
Đây là sự dịch chuyển mà đọc chính tả bằng giọng nói đáp ứng. Phần khó khi làm việc với một agent code AI không còn là viết code, agent lo việc đó. Phần khó là viết prompt : mô tả điều bạn muốn, các ràng buộc, các trường hợp biên, file cần đụng tới, hành vi cần tránh. Một prompt chính xác là khác biệt giữa một phát ăn ngay và mười vòng qua lại bực bội. Mà prompt chính xác thì dài, nên gõ rất chậm.
Đọc chính tả bằng giọng nói xóa bỏ thuế phải gõ phím. Bạn bấm nút micro trong composer, bạn nói tất cả những gì lẽ ra phải gõ, thường còn nhiều hơn cả những gì bạn chịu khó gõ, và bản chuyển giọng nói thành văn bản xuất hiện trong bản nháp. Bạn nói ở tốc độ 150 từ một phút, bạn không gõ ở tốc độ 150 từ một phút. Đọc chính tả đơn giản là nhanh hơn, và một kênh nhanh hơn nghĩa là bạn cho agent nhiều ngữ cảnh hơn trên mỗi tác vụ.
Đây không phải tính năng gắn thêm. Micro là một phần của composer AgentsRoom, ngay cạnh thư viện prompt và các công cụ phác thảo. Bản chuyển văn bản được chèn tại vị trí con trỏ, nên bạn có thể vừa gõ vừa đọc chính tả trong cùng một bản nháp. Không có gì được gửi tự động : văn bản rơi vào bản nháp, bạn đọc lại, sửa một từ mà mô hình nghe nhầm, rồi nhấn Enter khi bạn sẵn sàng. Đọc chính tả bằng giọng nói ở đây là trợ thủ viết lách, không phải chế độ lái tự động.

Nút micro nằm trong thanh công cụ của composer. Trong khi ghi âm, một dạng sóng giọng nói trực tiếp cho thấy mức tín hiệu đầu vào, rồi prompt đã được chuyển giọng nói thành văn bản xuất hiện trong bản nháp.
Vì sao nên đọc prompt thay vì gõ chúng
Tốc độ. Bạn nói nhanh hơn gõ nhiều lần, và bạn không đứt mạch suy nghĩ vì phải dò phím. Một prompt hai đoạn lẽ ra phải gõ mất ba phút thì chỉ là ba mươi giây đọc chính tả bằng giọng nói. Trên cả một ngày ra prompt cho agent, thời gian đó cộng lại thành cả giờ lấy về.
Độ chính xác. Vì đọc chính tả gần như không tốn công, bạn nói nhiều hơn. Bạn mô tả trường hợp biên mà lẽ ra bạn bỏ qua, file mà lẽ ra bạn không nêu tên, hành vi bạn muốn tránh. Một prompt giàu thông tin hơn là một prompt chính xác hơn, và một prompt chính xác hơn chính là thứ khiến agent code AI hoàn thành tác vụ ngay lần đầu.
Tiết kiệm token. Mỗi vòng làm rõ qua lại với agent đều tốn token : agent hỏi, bạn trả lời, nó đọc lại ngữ cảnh. Một prompt được đọc chính tả chính xác ngay từ đầu dẹp bỏ những vòng qua lại đó. Ít qua lại hơn nghĩa là ít token bị tiêu hơn để đạt cùng kết quả, một khoản tiết kiệm trực tiếp trên hóa đơn code AI của bạn.
Rảnh tay và di động. Trên desktop bạn giữ tay rảnh trong khi một agent đang chạy và đọc prompt tiếp theo thành tiếng. Trên điện thoại, đọc chính tả bằng giọng nói là cách nhanh nhất để nạp cho agent mà không phải vật lộn với bàn phím di động. Nói ý tưởng ra, nó rơi vào agent của bạn trên máy Mac.
Đọc chính tả bằng giọng nói hoạt động thế nào
Bấm micro, nói, xem lại, gửi. Bốn bước, không app riêng, không copy-paste.
Bấm micro trong composer
Đặt con trỏ vào composer của agent và bấm nút micro trên thanh công cụ. Lần đầu, macOS sẽ xin quyền truy cập micro, AgentsRoom chuyển yêu cầu đó tới hệ thống để bạn chỉ cần cấp một lần.
Nói prompt của bạn
Nút chuyển sang trạng thái ghi âm : một trạng thái nhấp nháy kèm dạng sóng giọng nói trực tiếp cho thấy mức tín hiệu đầu vào theo thời gian thực, để bạn biết micro thực sự đang thu âm. Nói tất cả những gì bạn muốn agent biết, bằng ngôn ngữ của bạn.
Dừng lại, và nó chuyển thành văn bản
Bấm lại để dừng. Âm thanh được gửi tới mô hình chuyển giọng nói thành văn bản bạn đã chọn (GPT-4o Transcribe mặc định, GPT-4o mini Transcribe, hoặc OpenAI Whisper). Nút hiển thị trạng thái đang chuyển văn bản trong khi speech-to-text chạy.
Bản chuyển văn bản rơi vào vị trí con trỏ
Văn bản đã chuyển đổi được chèn vào bản nháp tại vị trí con trỏ, kèm một khoảng trắng ngăn cách khi cần. Vị trí con trỏ được khôi phục, nên bạn có thể gõ tiếp hoặc đọc chính tả thêm một đoạn nữa. Gõ phím và đọc chính tả hòa trộn tự do trong cùng một prompt.
Xem lại và chỉnh sửa
Chưa có gì được gửi đi. Prompt nằm trong bản nháp. Đọc lại, sửa từ hiếm hoi mà mô hình nghe nhầm, thêm một dòng bằng bàn phím, sắp xếp lại một câu. Bạn giữ toàn quyền kiểm soát những gì agent thực sự nhận được.
Gửi khi đã sẵn sàng
Nhấn Enter để gửi prompt tới agent, hệt như một tin nhắn gõ tay. Với agent thì đó chỉ là văn bản, nên đọc chính tả bằng giọng nói hoạt động y như nhau với Claude Code, Codex, Gemini CLI, OpenCode và Aider.
Prompt nhanh hơn, ít token hơn
Vì sao đọc một prompt tốt ngay từ đầu lại rẻ hơn gõ một prompt sơ sài rồi lặp đi lặp lại.
Một prompt sơ sài đắt theo kiểu không hiện trên đồng hồ. Agent không đủ dữ kiện để dựa vào, nên nó đoán, bạn sửa, nó đọc lại toàn bộ ngữ cảnh, bạn lại sửa. Mỗi lượt như vậy đều là token đầu vào, token đầu ra và lượt đọc cache. Ba vòng qua lại để làm rõ một tính năng có thể tốn hơn cả chính tính năng đó.
Đọc chính tả bằng giọng nói lật ngược bài toán kinh tế. Vì nói thì nhanh, bạn dồn ngữ cảnh lên đầu : các ràng buộc, các đường dẫn file, hành vi cần tránh, ví dụ bạn đang hình dung. Agent làm đúng gần hơn với lần thử đầu tiên. Bạn đánh đổi ba mươi giây đọc chính tả lấy hai hoặc ba chu kỳ làm rõ được tránh khỏi.
Và điều này cộng dồn. Một ngày bình thường là hàng chục prompt. Nếu đọc chính tả bằng giọng nói tiết kiệm một vòng qua lại trên một phần lớn số đó, token tiết kiệm được chồng lên theo ngày, theo cả nhóm, theo cả tháng. Token rẻ nhất là token bạn không bao giờ phải tiêu để giải thích lại chính mình.
Nó cũng đơn giản là ít ma sát hơn. Ít ma sát hơn nghĩa là bạn thực sự viết prompt dài hơn, tốt hơn thay vì câu một dòng lười biếng mà bạn lẽ ra đã gõ vì gõ bản đầy đủ thấy quá nhọc. Đọc chính tả bằng giọng nói biến prompt tốt thành prompt dễ viết.
Chọn mô hình chuyển văn bản và ngôn ngữ của bạn
Đọc chính tả bằng giọng nói trên desktop cho bạn chọn mô hình speech-to-text và ngôn ngữ nói trong phần cài đặt.
Mô hình chuyển giọng nói thành văn bản (desktop)
- GPT-4o Transcribe (mặc định, chất lượng đa ngôn ngữ tốt nhất)
- GPT-4o mini Transcribe (gần như chính xác bằng, rẻ hơn)
- OpenAI Whisper, whisper-1 (giá theo phút đơn giản, nền tảng đa ngôn ngữ vững)
Ngôn ngữ nói
- Tự động nhận diện (mặc định, mô hình tự đoán ngôn ngữ)
- Tiếng Việt, English, Français, Español, Deutsch, Italiano, Português
- Русский, 中文, 日本語, 한국어
- العربية, हिन्दी, Bahasa Indonesia, Polski, Türkçe
Tự động nhận diện là mặc định và xử lý hầu hết trường hợp. Hãy ép một ngôn ngữ cụ thể khi các bản ghi ngắn bị nhận diện sai, nhưng chỉ ép ngôn ngữ bạn thực sự đang nói. Mười sáu ngôn ngữ cộng tự động nhận diện, nên bạn đọc chính tả bằng lời của mình và agent nhận được văn bản sạch.
Đọc chính tả bằng giọng nói thực sự làm gì bên trong
Trên desktop, composer ghi âm giọng bạn bằng API trình duyệt MediaRecorder và gửi âm thanh tới backend chuyển văn bản của AgentsRoom. Việc chuyển văn bản chạy phía máy chủ trên mô hình bạn đã chọn, nên phần nặng nhọc của speech-to-text không phụ thuộc vào máy của bạn, và bản chuyển văn bản trở về dưới dạng văn bản thuần được chèn tại vị trí con trỏ. Micro, việc ghi âm và việc chèn văn bản đều là một phần của chính composer mà bạn vốn đã gõ vào đó.
Trên mobile, đọc chính tả bằng giọng nói hoạt động khác đi một cách có chủ đích. App đồng hành dùng nhận dạng giọng nói trên thiết bị, nên âm thanh không bao giờ rời khỏi điện thoại của bạn. Văn bản đã nhận dạng sau đó được chuyển tiếp tới desktop qua kết nối mã hóa đầu cuối của AgentsRoom và thả vào ô nhập của agent bạn đang chọn trên máy Mac. Giữ nút micro, nói, thả ra, và văn bản xuất hiện trong agent desktop của bạn.
Cả hai mặt đều chung một quy tắc : đọc chính tả bằng giọng nói không bao giờ tự gửi. Trên desktop bản chuyển văn bản rơi vào bản nháp để xem lại. Trên mobile văn bản được dán vào ô nhập của agent đang chọn mà không kèm dấu xuống dòng, nên bạn vẫn tự nhấn Enter. Đọc chính tả là cách để viết prompt, không phải cách để bắn nó đi một cách mù quáng.
Cấu hình trung lập với nhà cung cấp. Các id mô hình chuyển văn bản ánh xạ tới backend speech-to-text, không phải tới agent CLI của bạn. Dù agent của bạn là Claude Code, Codex, Gemini CLI, OpenCode hay Aider, văn bản đọc chính tả cũng chỉ là văn bản trong composer, nên đọc chính tả bằng giọng nói hành xử y hệt trên mọi nhà cung cấp mà AgentsRoom hỗ trợ.
Đọc chính tả bằng giọng nói hoạt động ở đâu
Tích hợp trong composer desktop và app đồng hành mobile, ở mười sáu ngôn ngữ.
Composer desktop
Một nút micro trong composer của agent trên macOS. Chuyển văn bản phía máy chủ bằng GPT-4o Transcribe, GPT-4o mini Transcribe hoặc Whisper. Dạng sóng giọng nói trực tiếp khi ghi âm, văn bản chèn tại con trỏ, tự do hòa trộn với việc gõ. Chọn mô hình và ngôn ngữ trong cài đặt.
App đồng hành mobile
Trên app đồng hành iOS và Android, giữ micro để đọc chính tả. Nhận dạng giọng nói chạy trên thiết bị nên âm thanh ở lại trên điện thoại, và văn bản đã nhận dạng được chuyển tiếp mã hóa đầu cuối tới agent desktop đang chọn. Cách nhanh nhất để nạp cho agent ngay từ trong túi bạn.
Đa ngôn ngữ
Mười sáu ngôn ngữ nói cộng tự động nhận diện : tiếng Anh, tiếng Pháp, tiếng Tây Ban Nha, tiếng Đức, tiếng Ý, tiếng Bồ Đào Nha, tiếng Nga, tiếng Trung, tiếng Nhật, tiếng Hàn, tiếng Ả Rập, tiếng Hindi, tiếng Indonesia, tiếng Ba Lan, tiếng Thổ Nhĩ Kỳ và tiếng Việt. Đọc chính tả bằng tiếng mẹ đẻ, agent của bạn nhận được văn bản đã chuyển đổi sạch sẽ.
Gõ prompt và đọc chính tả prompt
Cùng agent, cùng tác vụ. Tốc độ khác, ngữ cảnh khác, hóa đơn token khác.
Gõ mọi prompt
- : Bạn gõ chỉ bằng một phần tốc độ nói, nên prompt cứ ngắn.
- : Prompt ngắn bỏ qua ngữ cảnh, nên agent đoán và bạn phải sửa.
- : Mỗi lần sửa là thêm một vòng qua lại, thêm token đầu vào và đầu ra.
- : Một app đọc chính tả riêng hoặc dịch vụ đọc chính tả của hệ thống đồng nghĩa copy-paste giữa các cửa sổ.
- : Trên điện thoại, bàn phím di động làm prompt dài trở nên cực hình, nên bạn gần như chẳng ra prompt nữa.
Đọc chính tả bằng giọng nói
- : Bạn nói trọn prompt trong vài giây, nên tự nhiên bạn nói nhiều hơn.
- : Nhiều ngữ cảnh ngay từ đầu nghĩa là agent hoàn thành tác vụ gần với lần thử đầu hơn.
- : Ít vòng làm rõ qua lại hơn nghĩa là ít token bị tiêu cho cùng kết quả.
- : Micro nằm trong composer, bản chuyển văn bản rơi vào bản nháp, không copy-paste.
- : Trên điện thoại, giữ micro và văn bản xuất hiện trong agent desktop qua kênh relay mã hóa.
Đọc chính tả bằng giọng nói là cách rẻ nhất để mỗi prompt cùng lúc dài hơn, chính xác hơn và viết nhanh hơn.
Một prompt đọc chính tả nghe như thế nào
Bạn không phải viết bất cứ chữ nào trong này. Bạn nói thành tiếng, speech-to-text biến nó thành prompt bên dưới, và bạn nhấn Enter. Thử gõ tay một prompt chi tiết cỡ này và cảm nhận xem nó tốn bao lâu.
Nói vào micro
Thêm một rate limiter vào endpoint đăng nhập.
Dùng cửa sổ trượt năm lần thử mỗi phút trên mỗi IP.
Trả về 429 kèm header Retry-After khi chạm giới hạn.
Giữ nguyên luồng thành công hiện có.
Thêm một unit test cho trường hợp chạm giới hạn và một test cho việc reset lại sau một phút.
Đừng đụng vào endpoint đăng ký.FAQ
Đọc chính tả bằng giọng nói trong AgentsRoom là gì ?
Đọc chính tả bằng giọng nói là một nút micro trong composer của agent biến giọng nói của bạn thành văn bản. Bạn bấm micro, nói prompt, và văn bản đã chuyển đổi được chèn vào bản nháp tại vị trí con trỏ. Đó là speech-to-text tích hợp sẵn để viết prompt cho các agent code AI của bạn, không cần app đọc chính tả riêng và không copy-paste giữa các cửa sổ.
Vì sao tôi nên đọc prompt thay vì gõ chúng ?
Tốc độ, độ chính xác và tiết kiệm token. Bạn nói nhanh hơn gõ nhiều lần, nên prompt mất vài giây thay vì vài phút. Vì đọc chính tả gần như không tốn công, bạn tự nhiên nói nhiều hơn, khiến prompt chính xác hơn. Một prompt chính xác nghĩa là ít vòng làm rõ qua lại với agent hơn, nghĩa là ít token bị tiêu hơn để đạt cùng kết quả.
Tôi có thể dùng những mô hình chuyển văn bản nào ?
Trên desktop bạn chọn từ ba mô hình speech-to-text trong cài đặt : GPT-4o Transcribe (mặc định, chất lượng đa ngôn ngữ tốt nhất), GPT-4o mini Transcribe (gần như chính xác bằng và rẻ hơn), và OpenAI Whisper, mô hình whisper-1 với giá theo phút đơn giản và nền tảng đa ngôn ngữ vững chắc.
Đây chỉ là OpenAI Whisper thôi à ?
Whisper là một trong những mô hình bạn có thể chọn, được tích hợp thẳng vào composer thay vì chạy như một app riêng bên cạnh. Bạn cũng có thể chọn GPT-4o Transcribe hoặc GPT-4o mini Transcribe. Điểm cốt lõi của đọc chính tả bằng giọng nói trong AgentsRoom là việc đọc chính tả nhắm thẳng vào ô nhập prompt của agent, nên bạn không phải đọc vào một cửa sổ rồi copy-paste sang cửa sổ khác.
Đọc chính tả bằng giọng nói hỗ trợ những ngôn ngữ nào ?
Mười sáu ngôn ngữ nói cộng tự động nhận diện : tiếng Anh, tiếng Pháp, tiếng Tây Ban Nha, tiếng Đức, tiếng Ý, tiếng Bồ Đào Nha, tiếng Nga, tiếng Trung, tiếng Nhật, tiếng Hàn, tiếng Ả Rập, tiếng Hindi, tiếng Indonesia, tiếng Ba Lan, tiếng Thổ Nhĩ Kỳ và tiếng Việt. Tự động nhận diện là mặc định. Bạn có thể ép một ngôn ngữ cụ thể trong cài đặt khi các bản ghi ngắn bị nhận diện sai.
Giọng nói của tôi có bị gửi tới máy chủ không ?
Tùy mặt nền. Trên desktop, âm thanh được gửi tới backend chuyển văn bản của AgentsRoom, nơi chạy speech-to-text trên mô hình bạn đã chọn và trả về văn bản. Trên mobile, nhận dạng giọng nói chạy trên thiết bị, nên âm thanh không bao giờ rời khỏi điện thoại và chỉ văn bản đã nhận dạng được chuyển tiếp tới desktop qua kết nối mã hóa đầu cuối.
Prompt có tự động được gửi sau khi tôi đọc chính tả không ?
Không. Đọc chính tả bằng giọng nói luôn thả văn bản vào bản nháp, không bao giờ tự gửi. Bạn đọc bản chuyển văn bản, sửa từ hiếm hoi nghe nhầm, thêm hoặc sắp xếp lại bằng bàn phím nếu muốn, và nhấn Enter khi sẵn sàng. Bạn giữ quyền kiểm soát chính xác những gì agent nhận được.
Tôi có thể vừa gõ vừa đọc chính tả trong cùng một prompt không ?
Có. Bản chuyển văn bản được chèn tại vị trí con trỏ, không thay thế toàn bộ bản nháp. Nên bạn có thể gõ nửa đầu, đọc chính tả một đoạn dài ở giữa, rồi gõ một dòng cuối. Đọc chính tả bằng giọng nói là cách nhanh hơn để lấp đầy composer, hoàn toàn tương thích với bàn phím.
Tôi có thể đọc chính tả từ điện thoại tới một agent trên máy Mac không ?
Có. App đồng hành mobile có một nút micro : giữ nó, nói, thả ra. Giọng nói được nhận dạng trên thiết bị và văn bản được chuyển tiếp mã hóa đầu cuối tới agent bạn đang chọn trên desktop. Đó là cách nhanh nhất để gửi một prompt tới agent Mac của bạn mà không dùng bàn phím di động.
Đọc chính tả bằng giọng nói có hoạt động với Claude Code, Codex và Gemini không ?
Có, với tất cả, cộng thêm OpenCode và Aider. Văn bản đọc chính tả chỉ là văn bản trong composer, và cấu hình chuyển văn bản trung lập với nhà cung cấp, nên đọc chính tả bằng giọng nói hành xử y hệt bất kể bạn đang chạy agent CLI nào.
Kết hợp tốt với
Scratchpad
Một trình soạn prompt lớn hơn ở footer. Đọc chính tả một bản brief dài, tinh chỉnh nó trong scratchpad, rồi gửi tới agent của bạn.
Thư viện Prompt
Lưu những prompt bạn đọc chính tả thành mẫu tái sử dụng. Giọng nói viết bản nháp đầu tiên, thư viện giữ lại những bản tốt.
Đồng bộ Mobile-Desktop
Liên kết mã hóa đầu cuối mang văn bản bạn đọc chính tả từ điện thoại tới agent đang chọn trên máy Mac.
Điều khiển Agent từ xa
Lái các agent desktop từ điện thoại của bạn. Đọc chính tả là cách nhanh nhất để gửi cho chúng một prompt khi bạn rời bàn phím.
Đa nhà cung cấp
Chạy Claude, Codex, Gemini, OpenCode và Aider song song. Đọc chính tả bằng giọng nói hoạt động y như nhau trên từng cái một.
Sketch
Vẽ và chú thích trong composer. Ghép một prompt đọc chính tả với một bản phác nhanh để cho agent của bạn cả lời lẫn hình.
Nói với các agent của bạn, đừng gõ prompt nữa
Tải AgentsRoom và đọc prompt thẳng vào composer. Viết nhanh hơn, giàu ngữ cảnh hơn, nhẹ token hơn. Đọc chính tả bằng giọng nói tích hợp trong IDE code AI của bạn, trên desktop và trên mobile.
Ứng dụng đồng hành: theo dõi agent khi đi đường
Sử dụng Claude, Codex, Gemini CLI hoặc nhà cung cấp AI khác.
Gửi lỗi và yêu cầu thẳng vào backlog công khai của bạn.
Một cái nhìn về AgentsRoom đang hoạt động.