Przestań czytać terminal.
Porozmawiaj z agentem.
Voice Mode to dwustronna rozmowa głosowa z działającym agentem AI do kodowania. Jedno stuknięcie, wypowiadasz swoją kolej, a agent odpowiada na głos naturalnym głosem. Bez wpisywania promptu, bez przewijania ściany wydruku z terminala, żeby dowiedzieć się, co się stało.
Włącz tryb bez użycia rąk, a będzie słuchać dalej między odpowiedziami: możesz chodzić po pokoju, obserwować build albo popijać kawę, omawiając plan. Zapytaj, na jakim etapie jest refaktor, a powie Ci. Powiedz uruchom testy i zdaj raport, a zrobi to i wypowie wynik.

Voice Mode w akcji: agent słucha, tryb bez użycia rąk jest włączony, głos odpowiedzi jest ustawiony, a agent odpowiada na głos między Twoimi kolejami.
Oto zmiana, na którą odpowiada Voice Mode. Twój agent działa dłużej i robi więcej samodzielnie: edytuje pliki, uruchamia polecenia, pisze testy, naprawia to, co zepsuł. Wąskim gardłem nie jest już pisanie kodu, lecz pozostawanie na bieżąco, gdy agent pracuje. Czytanie linijka po linijce wydruku z terminala albo wpisywanie kolejnego promptu, żeby zapytać, co się dzieje, sprowadza Cię z powrotem do klawiatury przy każdej kolejce.
Voice Mode zamienia tę pętlę w rozmowę. Wypowiadasz swoją kolej na głos, agent odpowiada na głos. Zadajesz pytanie, wprowadzasz poprawkę, zatwierdzasz plan, wszystko głosem, a odpowiedź słyszysz wypowiedzianą naturalnym głosem, zamiast odczytywać ją z ekranu. To różnica między nadzorowaniem procesu a rozmową z członkiem zespołu.
To nie to samo co dyktowanie głosowe. Dyktowanie jest jednostronne: mówisz, narzędzie zamienia Twoje słowa na tekst w composerze, a odpowiedź agenta i tak czytasz sam. Voice Mode jest dwustronny: głos na wejściu, głos na wyjściu, żywa wymiana zdań. Dyktowanie pomaga szybciej napisać prompt. Voice Mode pozwala całkowicie pominąć klawiaturę i ekran, podczas gdy agent nie przestaje pracować.
Dlaczego rozmawiać z agentem zamiast pisać i czytać
Bądź na bieżąco, bez użycia rąk. Sprawny agent potrafi działać minutami na jedną instrukcję. Dzięki Voice Mode w trybie bez użycia rąk pozostajesz w kontakcie przez cały czas, nie siedząc przy klawiaturze. Poproś o status, pokieruj następnym krokiem, potwierdź decyzję, stojąc przy tablicy albo obserwując przeładowującą się aplikację.
Naturalna wymiana zdań. Wpisywanie promptu, czekanie, czytanie wydruku, znowu pisanie to urywana pętla. Wypowiedzenie swojej kolei i usłyszenie odpowiedzi to rozmowa. Jest szybsza przy krótkich kolejach (szybkie tak, drobna poprawka, jeszcze jedno pytanie) i znacznie mniej męcząca niż czytanie ścian tekstu z terminala przy każdej aktualizacji.
Wolne oczy, wolny ekran. Usłyszenie odpowiedzi agenta oznacza, że nie musisz patrzeć na terminal, żeby wiedzieć, co zrobił. Zerknij na build, swoje testy, swój projekt albo nie patrz na nic, i pozwól wypowiedzianej aktualizacji powiedzieć Ci, na jakim etapie są sprawy. Agent relacjonuje, a Ty trzymasz wzrok tam, gdzie dzieje się prawdziwa praca.
Na tych samych kredytach głosowych. Voice Mode korzysta z głosowego backendu AgentsRoom, rozpoznawanie mowy na wejściu i synteza mowy na wyjściu, czerpiąc z tej samej puli kredytów głosowych co dyktowanie. Jedno saldo zasila zarówno dyktowanie promptów, jak i pełne rozmowy głosowe, więc nie trzeba niczego dodatkowo konfigurować.
Jak działa Voice Mode
Otwórz go przy działającym agencie, mów, słuchaj, powtarzaj. Wypowiadana pętla zamiast pisz-i-czytaj.
Otwórz Voice Mode przy działającym agencie
Voice Mode uruchamia się dla agenta, który już działa w swoim terminalu, z composera tego agenta. Potrzebuje aktywnej sesji, bo rozmowa toczy się z tym konkretnym agentem, w jego bieżącym kontekście, a nie ze świeżym czatem.
Stuknij, aby mówić
Stuknij raz i wypowiedz swoją kolej: pytanie, instrukcję, poprawkę. Stan przechodzi w nasłuchiwanie ze wskaźnikiem na żywo, więc widzisz, że mikrofon nagrywa. Wybierz tryb bez użycia rąk, by słuchał dalej między kolejami, albo stuknij-aby-mówić, by brać jedną kolej naraz.
Zapisuje mowę i wysyła ją do agenta
Gdy skończysz, Twoja mowa zostaje zamieniona na tekst i wysłana do działającego agenta jako Twoja wiadomość, dokładnie tak, jakbyś ją wpisał. Stan przechodzi przez transkrypcję i wysyłanie, więc zawsze wiesz, na jakim etapie pipeline'u jest Twoja kolej.
Agent pracuje
Agent przetwarza Twoją kolej w swojej sesji: może czytać pliki, uruchamiać polecenia, edytować kod, odpalać testy, cokolwiek wynikało z Twojej wiadomości. Voice Mode pokazuje stan pracy z nazwą agenta, gdy ten wykonuje zadanie, zupełnie jak zwykła kolej w terminalu.
Usłysz odpowiedź wypowiedzianą na głos
Gdy agent odpowiada, jego odpowiedź jest odczytywana na głos głosem, który wybrałeś. Słyszysz status, wynik, następne pytanie, bez czytania terminala. Opcjonalny sygnał dźwiękowy oznacza granicę między kolejami, więc wiesz, kiedy znów jest Twoja kolej.
Weź następną kolej
W trybie bez użycia rąk już znów słucha, więc po prostu mów dalej. W trybie stuknij-aby-mówić stukasz, by zacząć następną kolej. Rozmowa trwa tak długo, jak chcesz, a potem zamykasz Voice Mode i agent jest dokładnie tam, gdzie go zostawiłeś w swoim terminalu.
Bez użycia rąk, by być na bieżąco bez klawiatury
Sednem Voice Mode nie jest nowinka. To nadążanie za szybkim agentem bez przykucia do biurka.
Nowoczesny agent do kodowania robi sporo w jednej kolejce, a przerwy między Twoimi kolejami to miejsca, w których normalnie traciłbyś kontekst: odchodzisz, agent kończy, a Ty wracasz do ekranu pełnego wydruku, który teraz musisz przeczytać. Voice Mode w trybie bez użycia rąk zamyka tę lukę. Agent mówi Ci, co zrobił, gdy skończy, na głos, a Ty odpowiadasz, nie siadając z powrotem.
Tryb bez użycia rąk trzyma mikrofon otwarty między kolejami, więc rozmowa płynie jak rozmowa telefoniczna: mówisz, on pracuje, mówi, znów mówisz. Wolisz kontrolować każdą kolej? Stuknij-aby-mówić bierze jedną kolej naraz, co przydaje się w hałaśliwym pomieszczeniu albo gdy chcesz odzywać się tylko od czasu do czasu.
Sygnał dźwiękowy to drobiazg, który w praktyce ma znaczenie. Gdy nie patrzysz na ekran, krótki sygnał oznacza, że agent skończył mówić i teraz Twoja kolej, więc nie wchodzisz mu w słowo ani nie czekasz w ciszy, zastanawiając się, czy już skończył.
To właśnie sprawia, że Voice Mode jest użyteczny w prawdziwej pracy, a nie tylko jako demo. Jest stworzony na chwile, gdy agent wykonuje gros roboty, a Ty chcesz kierować, sprawdzać i zatwierdzać, podczas gdy Twoje ręce i oczy są wolne do wszystkiego innego.
Wybierz głos, śledź rozmowę
Voice Mode daje Ci ustawienia, które sprawiają, że wypowiadana rozmowa jest wygodna, i pokazuje dokładnie, na jakim etapie jest każda kolej.
Głosy i sygnały
- Głos odpowiedzi: alloy i inne naturalne głosy
- Bez użycia rąk: słucha dalej między kolejami
- Stuknij-aby-mówić: jedna kolej naraz
- Sygnał dźwiękowy: krótki ton oznacza granicę każdej kolei
- Automatyczny język: mów swoimi słowami, narzędzie wykryje język
Stany rozmowy
- Nasłuchiwanie: mikrofon nagrywa Twoją kolej
- Transkrypcja: Twoja mowa jest zamieniana na tekst
- Wysyłanie: Twoja wiadomość trafia do agenta
- Praca: agent wykonuje zadanie
- Mówienie: odpowiedź agenta jest odczytywana na głos
Automatyczne wykrywanie języka oznacza, że nie musisz wybierać języka, żeby zacząć mówić, a widoczne stany sprawiają, że nigdy nie zgadujesz, czy agent Cię usłyszał, pracuje, czy zaraz odpowie.
Co Voice Mode naprawdę robi pod maską
Voice Mode to warstwa full duplex na wierzchu zwykłej sesji agenta. W Twojej kolejce nagrywa Twój głos i wysyła dźwięk do backendu AgentsRoom, który uruchamia rozpoznawanie mowy i zwraca transkrypcję. Ta transkrypcja jest wstrzykiwana do działającego agenta jako Twoja wiadomość, więc z punktu widzenia agenta to po prostu kolejna kolej w rozmowie, którą już z Tobą prowadzi.
W kolejce agenta jego tekstowa odpowiedź jest wysyłana z powrotem do backendu AgentsRoom w celu syntezy mowy w wybranym przez Ciebie głosie, a powstały dźwięk jest Ci odtwarzany. Rozpoznawanie mowy na wejściu, synteza mowy na wyjściu, a prawdziwa praca agenta dzieje się pomiędzy. Dlatego Voice Mode wymaga konta i działającego agenta: backend głosowy pośredniczy w dostępie do modeli mowy, a rozmowa jest związana z aktywną sesją.
Ponieważ agent widzi wyłącznie tekst, Voice Mode jest z założenia neutralny względem providera. Niezależnie od tego, czy agentem jest Claude Code, Codex, Gemini CLI, OpenCode czy Aider, Twoja zapisana kolej dociera jako wiadomość, a jego odpowiedź jest wypowiadana tak samo. Nic w warstwie głosowej nie zależy od tego, jaki CLI działa pod spodem.
Voice Mode i dyktowanie głosowe korzystają z tej samej puli kredytów głosowych, ponieważ oba opierają się na tym samym backendzie mowy. Dyktowanie zużywa kredyty na jednostronną transkrypcję; Voice Mode zużywa je na pełen obieg transkrypcji oraz wypowiadanych odpowiedzi, co z natury jest otwarte, bo rozmowa może trwać tak długo, jak długo mówisz.
Gdzie działa Voice Mode
Dwustronna wypowiadana rozmowa z działającym agentem na desktopie, głos na wejściu i głos na wyjściu.
Desktop, przy aktywnym agencie
Voice Mode działa na macOS, uruchamiany z composera agenta, który już działa. Rozmawia z tym konkretnym agentem w jego bieżącej sesji, więc rozmowa ma cały kontekst, który agent zgromadził, a nie czystą kartę.
Głos na wejściu
Twoja kolej jest nagrywana przez mikrofon i zamieniana na tekst przez głosowy backend AgentsRoom, a następnie wysyłana do agenta jako Twoja wiadomość. Tryb bez użycia rąk trzyma mikrofon otwarty między kolejami; stuknij-aby-mówić bierze jedną kolej naraz. Język wykrywa się automatycznie.
Głos na wyjściu
Odpowiedź agenta jest odczytywana na głos przez syntezę mowy w wybranym przez Ciebie głosie (alloy i inne). Opcjonalny sygnał dźwiękowy oznacza koniec każdej wypowiedzianej odpowiedzi, więc wiesz, że Twoja kolej, nawet gdy nie patrzysz na ekran.
Dyktowanie głosowe vs Voice Mode
Oba używają Twojego głosu. Jedno pisze za Ciebie prompt, drugie prowadzi rozmowę.
Dyktowanie głosowe (jednostronne)
- : Mówisz, narzędzie zamienia Twoje słowa na tekst w composerze.
- : Odpowiedź agenta i tak czytasz sam na ekranie.
- : Świetne do szybkiego napisania długiego, precyzyjnego promptu.
- : Zostajesz przy klawiaturze, żeby wysłać i przeczytać wynik.
- : Jeden kierunek: głos na wejściu, tekst w wersji roboczej, dalej Ty.
Voice Mode (dwustronny)
- : Wypowiadasz swoją kolej, agent odpowiada na głos.
- : Słyszysz odpowiedź, nie musisz czytać terminala.
- : Świetny do kierowania i sprawdzania, gdy agent pracuje.
- : Tryb bez użycia rąk podtrzymuje rozmowę bez klawiatury.
- : Oba kierunki: głos na wejściu, agent pracuje, głos na wyjściu.
Użyj dyktowania, by napisać świetny prompt w kilka sekund, i Voice Mode, by rozmawiać z agentem, gdy ten go realizuje.
Jak brzmi wypowiadana kolej
Niczego z tego nie wpisujesz. Wypowiadasz swoją kolej na głos, agent wykonuje pracę i wypowiada odpowiedź. Oto jedna runda rozmowy w Voice Mode.
Runda rozmowy
Ty: Na jakim etapie jesteśmy z refaktorem logowania?
Agent: Limiter zapytań jest na miejscu, a ścieżka sukcesu nietknięta. Dwa testy są wciąż na czerwono.
Ty: Napraw te dwa nieprzechodzące testy, potem uruchom cały zestaw i podaj mi liczbę.
Agent: Gotowe. Oba teraz przechodzą. Pełny zestaw: 142 zaliczone, 0 niezaliczonych.
Ty: Dobrze. Zacommituj to z krótką wiadomością i na tym poprzestań.FAQ
Czym jest Voice Mode w AgentsRoom?
Voice Mode to dwustronna rozmowa głosowa z działającym agentem AI do kodowania. Stukasz i wypowiadasz swoją kolej, Twoja mowa jest zamieniana na tekst i wysyłana do agenta, agent wykonuje pracę, a jego odpowiedź zostaje Ci odczytana na głos naturalnym głosem. Pozwala rozmawiać z agentem i słuchać jego odpowiedzi zamiast wpisywać prompty i czytać wydruk z terminala.
Czym Voice Mode różni się od dyktowania głosowego?
Dyktowanie głosowe jest jednostronne: mówisz, a Twoje słowa są zamieniane na tekst w composerze jako prompt, potem czytasz odpowiedź agenta na ekranie. Voice Mode jest dwustronny: wypowiadasz swoją kolej, a agent odpowiada na głos, żywa wypowiadana wymiana zdań. Dyktowanie pomaga szybciej napisać prompt; Voice Mode pozwala prowadzić rozmowę bez użycia rąk, gdy agent pracuje.
Czy agent naprawdę odpowiada głosem?
Tak. Odpowiedź agenta jest zamieniana na mowę przez syntezę mowy i odtwarzana na głos w wybranym przez Ciebie głosie. Słyszysz status, wynik i następne pytanie, więc nie musisz czytać terminala, żeby wiedzieć, co agent zrobił.
Czym jest tryb bez użycia rąk?
Tryb bez użycia rąk trzyma mikrofon otwarty między kolejami, więc rozmowa płynie jak rozmowa telefoniczna: mówisz, agent pracuje, mówi, i już słucha Twojej następnej kolei. Jeśli wolisz kontrolować każdą kolej, stuknij-aby-mówić bierze jedną kolej naraz, co przydaje się w hałaśliwym pomieszczeniu.
Czy mogę wybrać głos?
Tak. Wybierasz głos odpowiedzi (alloy i inne głosy) używany do wypowiadanych odpowiedzi agenta. Możesz też włączyć opcjonalny sygnał dźwiękowy, który odtwarza krótki ton na granicy między kolejami, więc wiesz, kiedy agent skończył mówić i teraz Twoja kolej.
Jakie języki obsługuje Voice Mode?
Voice Mode automatycznie wykrywa język, którym mówisz, więc możesz mówić swoimi słowami bez wcześniejszego wybierania języka. Transkrypcją zajmuje się głosowy backend AgentsRoom, ten sam stos mowy, którego używa dyktowanie.
Czy potrzebuję konta i działającego agenta?
Tak, jednego i drugiego. Voice Mode potrzebuje zalogowanego konta, bo backend głosowy pośredniczy w dostępie do modeli mowy i czerpie z Twoich kredytów głosowych, oraz agenta, który już działa, bo rozmowa jest związana z tą aktywną sesją i korzysta z jej bieżącego kontekstu.
Czy Voice Mode zużywa kredyty?
Tak. Voice Mode działa na tej samej puli kredytów głosowych co dyktowanie. Dyktowanie zużywa kredyty na jednostronną transkrypcję Twojej mowy; Voice Mode zużywa je na pełen obieg transkrypcji oraz wypowiadanych odpowiedzi, co jest otwarte, bo rozmowa może trwać tak długo, jak długo mówisz.
Czy jest dostępny w demie webowym na żywo?
Nie. Publiczne demo webowe symuluje backend, więc rozmowa głosowa w czasie rzeczywistym nie może tam działać. Kliknięcie Voice Mode w demie pokazuje komunikat zachęcający do pobrania AgentsRoom, gdzie Voice Mode rozmawia z Twoimi prawdziwymi agentami.
Czy Voice Mode działa z Claude Code, Codex i Gemini?
Tak, ze wszystkimi, a do tego z OpenCode i Aider. Agent widzi wyłącznie tekst, więc Twoja wypowiedziana kolej dociera jako wiadomość, a jego odpowiedź jest wypowiadana tak samo, niezależnie od tego, jaki CLI agenta działa pod spodem.
Dobrze łączy się z
Dyktowanie głosowe
Jednostronne rodzeństwo Voice Mode. Podyktuj długi, precyzyjny prompt do composera głosem, a potem rozmawiaj z agentem, gdy ten go realizuje.
Zdalne sterowanie agentem
Steruj agentami na desktopie z telefonu. Głos to najbardziej naturalny sposób, by nadążać za agentem, gdy jesteś z dala od klawiatury.
Synchronizacja mobile-desktop
Szyfrowane od końca do końca połączenie między telefonem a agentami na desktopie, byś był na bieżąco z tym, co działa na Twoim Macu.
Status agentów
Zobacz na pierwszy rzut oka, kto pracuje, kto skończył, kto utknął. Voice Mode pozwala zapytać o ten status działającego agenta na głos.
Multi-Provider
Uruchamiaj Claude, Codex, Gemini, OpenCode i Aider obok siebie. Voice Mode rozmawia z każdym z nich tak samo.
Scratchpad
Większy edytor w stopce na notatki i dłuższe briefy. Połącz go z głosem, gdy kolej jest zbyt długa albo zbyt precyzyjna, by ją wypowiedzieć.
Rozmawiaj z agentami, słuchaj ich odpowiedzi
Pobierz AgentsRoom i otwórz Voice Mode przy działającym agencie. Wypowiedz swoją kolej, usłysz odpowiedź i bądź na bieżąco bez użycia rąk, gdy agent pracuje. Dwustronna rozmowa głosowa wbudowana w Twoje IDE do kodowania z AI.
Aplikacja towarzyszaca: monitoruj agentów w podrozy
Użyj Claude, Codex, Gemini CLI lub innego dostawcy AI.
Wysyłaj bugi i prośby bezpośrednio do swojego publicznego backlogu.
Spojrzenie na AgentsRoom w akcji.