Voice Mode: rozmawiaj z agentem, słuchaj jego odpowiedzi

Przestań czytać terminal.
Porozmawiaj z agentem.

Voice Mode to dwustronna rozmowa głosowa z działającym agentem AI do kodowania. Jedno stuknięcie, wypowiadasz swoją kolej, a agent odpowiada na głos naturalnym głosem. Bez wpisywania promptu, bez przewijania ściany wydruku z terminala, żeby dowiedzieć się, co się stało.

Włącz tryb bez użycia rąk, a będzie słuchać dalej między odpowiedziami: możesz chodzić po pokoju, obserwować build albo popijać kawę, omawiając plan. Zapytaj, na jakim etapie jest refaktor, a powie Ci. Powiedz uruchom testy i zdaj raport, a zrobi to i wypowie wynik.

Voice Mode w AgentsRoom: dwustronna rozmowa głosowa z agentem AI do kodowania, stan nasłuchiwania ze wskaźnikiem na żywo, przełącznik trybu bez użycia rąk, sygnał dźwiękowy, wybieralny głos odpowiedzi i automatyczne wykrywanie języka

Voice Mode w akcji: agent słucha, tryb bez użycia rąk jest włączony, głos odpowiedzi jest ustawiony, a agent odpowiada na głos między Twoimi kolejami.

Oto zmiana, na którą odpowiada Voice Mode. Twój agent działa dłużej i robi więcej samodzielnie: edytuje pliki, uruchamia polecenia, pisze testy, naprawia to, co zepsuł. Wąskim gardłem nie jest już pisanie kodu, lecz pozostawanie na bieżąco, gdy agent pracuje. Czytanie linijka po linijce wydruku z terminala albo wpisywanie kolejnego promptu, żeby zapytać, co się dzieje, sprowadza Cię z powrotem do klawiatury przy każdej kolejce.

Voice Mode zamienia tę pętlę w rozmowę. Wypowiadasz swoją kolej na głos, agent odpowiada na głos. Zadajesz pytanie, wprowadzasz poprawkę, zatwierdzasz plan, wszystko głosem, a odpowiedź słyszysz wypowiedzianą naturalnym głosem, zamiast odczytywać ją z ekranu. To różnica między nadzorowaniem procesu a rozmową z członkiem zespołu.

To nie to samo co dyktowanie głosowe. Dyktowanie jest jednostronne: mówisz, narzędzie zamienia Twoje słowa na tekst w composerze, a odpowiedź agenta i tak czytasz sam. Voice Mode jest dwustronny: głos na wejściu, głos na wyjściu, żywa wymiana zdań. Dyktowanie pomaga szybciej napisać prompt. Voice Mode pozwala całkowicie pominąć klawiaturę i ekran, podczas gdy agent nie przestaje pracować.

Dlaczego rozmawiać z agentem zamiast pisać i czytać

Bądź na bieżąco, bez użycia rąk. Sprawny agent potrafi działać minutami na jedną instrukcję. Dzięki Voice Mode w trybie bez użycia rąk pozostajesz w kontakcie przez cały czas, nie siedząc przy klawiaturze. Poproś o status, pokieruj następnym krokiem, potwierdź decyzję, stojąc przy tablicy albo obserwując przeładowującą się aplikację.

Naturalna wymiana zdań. Wpisywanie promptu, czekanie, czytanie wydruku, znowu pisanie to urywana pętla. Wypowiedzenie swojej kolei i usłyszenie odpowiedzi to rozmowa. Jest szybsza przy krótkich kolejach (szybkie tak, drobna poprawka, jeszcze jedno pytanie) i znacznie mniej męcząca niż czytanie ścian tekstu z terminala przy każdej aktualizacji.

Wolne oczy, wolny ekran. Usłyszenie odpowiedzi agenta oznacza, że nie musisz patrzeć na terminal, żeby wiedzieć, co zrobił. Zerknij na build, swoje testy, swój projekt albo nie patrz na nic, i pozwól wypowiedzianej aktualizacji powiedzieć Ci, na jakim etapie są sprawy. Agent relacjonuje, a Ty trzymasz wzrok tam, gdzie dzieje się prawdziwa praca.

Na tych samych kredytach głosowych. Voice Mode korzysta z głosowego backendu AgentsRoom, rozpoznawanie mowy na wejściu i synteza mowy na wyjściu, czerpiąc z tej samej puli kredytów głosowych co dyktowanie. Jedno saldo zasila zarówno dyktowanie promptów, jak i pełne rozmowy głosowe, więc nie trzeba niczego dodatkowo konfigurować.

Jak działa Voice Mode

Otwórz go przy działającym agencie, mów, słuchaj, powtarzaj. Wypowiadana pętla zamiast pisz-i-czytaj.

01

Otwórz Voice Mode przy działającym agencie

Voice Mode uruchamia się dla agenta, który już działa w swoim terminalu, z composera tego agenta. Potrzebuje aktywnej sesji, bo rozmowa toczy się z tym konkretnym agentem, w jego bieżącym kontekście, a nie ze świeżym czatem.

02

Stuknij, aby mówić

Stuknij raz i wypowiedz swoją kolej: pytanie, instrukcję, poprawkę. Stan przechodzi w nasłuchiwanie ze wskaźnikiem na żywo, więc widzisz, że mikrofon nagrywa. Wybierz tryb bez użycia rąk, by słuchał dalej między kolejami, albo stuknij-aby-mówić, by brać jedną kolej naraz.

03

Zapisuje mowę i wysyła ją do agenta

Gdy skończysz, Twoja mowa zostaje zamieniona na tekst i wysłana do działającego agenta jako Twoja wiadomość, dokładnie tak, jakbyś ją wpisał. Stan przechodzi przez transkrypcję i wysyłanie, więc zawsze wiesz, na jakim etapie pipeline'u jest Twoja kolej.

04

Agent pracuje

Agent przetwarza Twoją kolej w swojej sesji: może czytać pliki, uruchamiać polecenia, edytować kod, odpalać testy, cokolwiek wynikało z Twojej wiadomości. Voice Mode pokazuje stan pracy z nazwą agenta, gdy ten wykonuje zadanie, zupełnie jak zwykła kolej w terminalu.

05

Usłysz odpowiedź wypowiedzianą na głos

Gdy agent odpowiada, jego odpowiedź jest odczytywana na głos głosem, który wybrałeś. Słyszysz status, wynik, następne pytanie, bez czytania terminala. Opcjonalny sygnał dźwiękowy oznacza granicę między kolejami, więc wiesz, kiedy znów jest Twoja kolej.

06

Weź następną kolej

W trybie bez użycia rąk już znów słucha, więc po prostu mów dalej. W trybie stuknij-aby-mówić stukasz, by zacząć następną kolej. Rozmowa trwa tak długo, jak chcesz, a potem zamykasz Voice Mode i agent jest dokładnie tam, gdzie go zostawiłeś w swoim terminalu.

Bez użycia rąk, by być na bieżąco bez klawiatury

Sednem Voice Mode nie jest nowinka. To nadążanie za szybkim agentem bez przykucia do biurka.

Nowoczesny agent do kodowania robi sporo w jednej kolejce, a przerwy między Twoimi kolejami to miejsca, w których normalnie traciłbyś kontekst: odchodzisz, agent kończy, a Ty wracasz do ekranu pełnego wydruku, który teraz musisz przeczytać. Voice Mode w trybie bez użycia rąk zamyka tę lukę. Agent mówi Ci, co zrobił, gdy skończy, na głos, a Ty odpowiadasz, nie siadając z powrotem.

Tryb bez użycia rąk trzyma mikrofon otwarty między kolejami, więc rozmowa płynie jak rozmowa telefoniczna: mówisz, on pracuje, mówi, znów mówisz. Wolisz kontrolować każdą kolej? Stuknij-aby-mówić bierze jedną kolej naraz, co przydaje się w hałaśliwym pomieszczeniu albo gdy chcesz odzywać się tylko od czasu do czasu.

Sygnał dźwiękowy to drobiazg, który w praktyce ma znaczenie. Gdy nie patrzysz na ekran, krótki sygnał oznacza, że agent skończył mówić i teraz Twoja kolej, więc nie wchodzisz mu w słowo ani nie czekasz w ciszy, zastanawiając się, czy już skończył.

To właśnie sprawia, że Voice Mode jest użyteczny w prawdziwej pracy, a nie tylko jako demo. Jest stworzony na chwile, gdy agent wykonuje gros roboty, a Ty chcesz kierować, sprawdzać i zatwierdzać, podczas gdy Twoje ręce i oczy są wolne do wszystkiego innego.

Wybierz głos, śledź rozmowę

Voice Mode daje Ci ustawienia, które sprawiają, że wypowiadana rozmowa jest wygodna, i pokazuje dokładnie, na jakim etapie jest każda kolej.

Głosy i sygnały

  • Głos odpowiedzi: alloy i inne naturalne głosy
  • Bez użycia rąk: słucha dalej między kolejami
  • Stuknij-aby-mówić: jedna kolej naraz
  • Sygnał dźwiękowy: krótki ton oznacza granicę każdej kolei
  • Automatyczny język: mów swoimi słowami, narzędzie wykryje język

Stany rozmowy

  • Nasłuchiwanie: mikrofon nagrywa Twoją kolej
  • Transkrypcja: Twoja mowa jest zamieniana na tekst
  • Wysyłanie: Twoja wiadomość trafia do agenta
  • Praca: agent wykonuje zadanie
  • Mówienie: odpowiedź agenta jest odczytywana na głos

Automatyczne wykrywanie języka oznacza, że nie musisz wybierać języka, żeby zacząć mówić, a widoczne stany sprawiają, że nigdy nie zgadujesz, czy agent Cię usłyszał, pracuje, czy zaraz odpowie.

Co Voice Mode naprawdę robi pod maską

Voice Mode to warstwa full duplex na wierzchu zwykłej sesji agenta. W Twojej kolejce nagrywa Twój głos i wysyła dźwięk do backendu AgentsRoom, który uruchamia rozpoznawanie mowy i zwraca transkrypcję. Ta transkrypcja jest wstrzykiwana do działającego agenta jako Twoja wiadomość, więc z punktu widzenia agenta to po prostu kolejna kolej w rozmowie, którą już z Tobą prowadzi.

W kolejce agenta jego tekstowa odpowiedź jest wysyłana z powrotem do backendu AgentsRoom w celu syntezy mowy w wybranym przez Ciebie głosie, a powstały dźwięk jest Ci odtwarzany. Rozpoznawanie mowy na wejściu, synteza mowy na wyjściu, a prawdziwa praca agenta dzieje się pomiędzy. Dlatego Voice Mode wymaga konta i działającego agenta: backend głosowy pośredniczy w dostępie do modeli mowy, a rozmowa jest związana z aktywną sesją.

Ponieważ agent widzi wyłącznie tekst, Voice Mode jest z założenia neutralny względem providera. Niezależnie od tego, czy agentem jest Claude Code, Codex, Gemini CLI, OpenCode czy Aider, Twoja zapisana kolej dociera jako wiadomość, a jego odpowiedź jest wypowiadana tak samo. Nic w warstwie głosowej nie zależy od tego, jaki CLI działa pod spodem.

Voice Mode i dyktowanie głosowe korzystają z tej samej puli kredytów głosowych, ponieważ oba opierają się na tym samym backendzie mowy. Dyktowanie zużywa kredyty na jednostronną transkrypcję; Voice Mode zużywa je na pełen obieg transkrypcji oraz wypowiadanych odpowiedzi, co z natury jest otwarte, bo rozmowa może trwać tak długo, jak długo mówisz.

Gdzie działa Voice Mode

Dwustronna wypowiadana rozmowa z działającym agentem na desktopie, głos na wejściu i głos na wyjściu.

Desktop, przy aktywnym agencie

Voice Mode działa na macOS, uruchamiany z composera agenta, który już działa. Rozmawia z tym konkretnym agentem w jego bieżącej sesji, więc rozmowa ma cały kontekst, który agent zgromadził, a nie czystą kartę.

Głos na wejściu

Twoja kolej jest nagrywana przez mikrofon i zamieniana na tekst przez głosowy backend AgentsRoom, a następnie wysyłana do agenta jako Twoja wiadomość. Tryb bez użycia rąk trzyma mikrofon otwarty między kolejami; stuknij-aby-mówić bierze jedną kolej naraz. Język wykrywa się automatycznie.

Głos na wyjściu

Odpowiedź agenta jest odczytywana na głos przez syntezę mowy w wybranym przez Ciebie głosie (alloy i inne). Opcjonalny sygnał dźwiękowy oznacza koniec każdej wypowiedzianej odpowiedzi, więc wiesz, że Twoja kolej, nawet gdy nie patrzysz na ekran.

Dyktowanie głosowe vs Voice Mode

Oba używają Twojego głosu. Jedno pisze za Ciebie prompt, drugie prowadzi rozmowę.

Dyktowanie głosowe (jednostronne)

  • : Mówisz, narzędzie zamienia Twoje słowa na tekst w composerze.
  • : Odpowiedź agenta i tak czytasz sam na ekranie.
  • : Świetne do szybkiego napisania długiego, precyzyjnego promptu.
  • : Zostajesz przy klawiaturze, żeby wysłać i przeczytać wynik.
  • : Jeden kierunek: głos na wejściu, tekst w wersji roboczej, dalej Ty.

Voice Mode (dwustronny)

  • : Wypowiadasz swoją kolej, agent odpowiada na głos.
  • : Słyszysz odpowiedź, nie musisz czytać terminala.
  • : Świetny do kierowania i sprawdzania, gdy agent pracuje.
  • : Tryb bez użycia rąk podtrzymuje rozmowę bez klawiatury.
  • : Oba kierunki: głos na wejściu, agent pracuje, głos na wyjściu.

Użyj dyktowania, by napisać świetny prompt w kilka sekund, i Voice Mode, by rozmawiać z agentem, gdy ten go realizuje.

Jak brzmi wypowiadana kolej

Niczego z tego nie wpisujesz. Wypowiadasz swoją kolej na głos, agent wykonuje pracę i wypowiada odpowiedź. Oto jedna runda rozmowy w Voice Mode.

Runda rozmowy

Ty: Na jakim etapie jesteśmy z refaktorem logowania?
Agent: Limiter zapytań jest na miejscu, a ścieżka sukcesu nietknięta. Dwa testy są wciąż na czerwono.
Ty: Napraw te dwa nieprzechodzące testy, potem uruchom cały zestaw i podaj mi liczbę.
Agent: Gotowe. Oba teraz przechodzą. Pełny zestaw: 142 zaliczone, 0 niezaliczonych.
Ty: Dobrze. Zacommituj to z krótką wiadomością i na tym poprzestań.
To Ty zaczynasz każdą kolej
Voice Mode nie działa samodzielnie. Stukasz albo mówisz, by wziąć kolej, a agent robi tylko to, o co poprosiła Twoja wypowiedziana wiadomość. Stuknij-aby-mówić daje kontrolę kolej po kolei; tryb bez użycia rąk słucha tylko wtedy, gdy Voice Mode jest otwarty.
Konto i aktywny agent
Voice Mode potrzebuje zalogowanego konta, bo backend głosowy pośredniczy w dostępie do modeli mowy i nalicza kredyty głosowe, oraz działającego agenta, bo rozmowa jest związana z tą aktywną sesją i jej kontekstem.
Współpracuje z każdym agentem
Agent widzi wyłącznie tekst, więc Voice Mode zachowuje się tak samo z Claude Code, Codex, Gemini CLI, OpenCode i Aider. Warstwa głosowa otacza sesję i nigdy nie zależy od tego, jaki CLI jest pod spodem.

FAQ

Czym jest Voice Mode w AgentsRoom?

Voice Mode to dwustronna rozmowa głosowa z działającym agentem AI do kodowania. Stukasz i wypowiadasz swoją kolej, Twoja mowa jest zamieniana na tekst i wysyłana do agenta, agent wykonuje pracę, a jego odpowiedź zostaje Ci odczytana na głos naturalnym głosem. Pozwala rozmawiać z agentem i słuchać jego odpowiedzi zamiast wpisywać prompty i czytać wydruk z terminala.

Czym Voice Mode różni się od dyktowania głosowego?

Dyktowanie głosowe jest jednostronne: mówisz, a Twoje słowa są zamieniane na tekst w composerze jako prompt, potem czytasz odpowiedź agenta na ekranie. Voice Mode jest dwustronny: wypowiadasz swoją kolej, a agent odpowiada na głos, żywa wypowiadana wymiana zdań. Dyktowanie pomaga szybciej napisać prompt; Voice Mode pozwala prowadzić rozmowę bez użycia rąk, gdy agent pracuje.

Czy agent naprawdę odpowiada głosem?

Tak. Odpowiedź agenta jest zamieniana na mowę przez syntezę mowy i odtwarzana na głos w wybranym przez Ciebie głosie. Słyszysz status, wynik i następne pytanie, więc nie musisz czytać terminala, żeby wiedzieć, co agent zrobił.

Czym jest tryb bez użycia rąk?

Tryb bez użycia rąk trzyma mikrofon otwarty między kolejami, więc rozmowa płynie jak rozmowa telefoniczna: mówisz, agent pracuje, mówi, i już słucha Twojej następnej kolei. Jeśli wolisz kontrolować każdą kolej, stuknij-aby-mówić bierze jedną kolej naraz, co przydaje się w hałaśliwym pomieszczeniu.

Czy mogę wybrać głos?

Tak. Wybierasz głos odpowiedzi (alloy i inne głosy) używany do wypowiadanych odpowiedzi agenta. Możesz też włączyć opcjonalny sygnał dźwiękowy, który odtwarza krótki ton na granicy między kolejami, więc wiesz, kiedy agent skończył mówić i teraz Twoja kolej.

Jakie języki obsługuje Voice Mode?

Voice Mode automatycznie wykrywa język, którym mówisz, więc możesz mówić swoimi słowami bez wcześniejszego wybierania języka. Transkrypcją zajmuje się głosowy backend AgentsRoom, ten sam stos mowy, którego używa dyktowanie.

Czy potrzebuję konta i działającego agenta?

Tak, jednego i drugiego. Voice Mode potrzebuje zalogowanego konta, bo backend głosowy pośredniczy w dostępie do modeli mowy i czerpie z Twoich kredytów głosowych, oraz agenta, który już działa, bo rozmowa jest związana z tą aktywną sesją i korzysta z jej bieżącego kontekstu.

Czy Voice Mode zużywa kredyty?

Tak. Voice Mode działa na tej samej puli kredytów głosowych co dyktowanie. Dyktowanie zużywa kredyty na jednostronną transkrypcję Twojej mowy; Voice Mode zużywa je na pełen obieg transkrypcji oraz wypowiadanych odpowiedzi, co jest otwarte, bo rozmowa może trwać tak długo, jak długo mówisz.

Czy jest dostępny w demie webowym na żywo?

Nie. Publiczne demo webowe symuluje backend, więc rozmowa głosowa w czasie rzeczywistym nie może tam działać. Kliknięcie Voice Mode w demie pokazuje komunikat zachęcający do pobrania AgentsRoom, gdzie Voice Mode rozmawia z Twoimi prawdziwymi agentami.

Czy Voice Mode działa z Claude Code, Codex i Gemini?

Tak, ze wszystkimi, a do tego z OpenCode i Aider. Agent widzi wyłącznie tekst, więc Twoja wypowiedziana kolej dociera jako wiadomość, a jego odpowiedź jest wypowiadana tak samo, niezależnie od tego, jaki CLI agenta działa pod spodem.

Dobrze łączy się z

Rozmawiaj z agentami, słuchaj ich odpowiedzi

Pobierz AgentsRoom i otwórz Voice Mode przy działającym agencie. Wypowiedz swoją kolej, usłysz odpowiedź i bądź na bieżąco bez użycia rąk, gdy agent pracuje. Dwustronna rozmowa głosowa wbudowana w Twoje IDE do kodowania z AI.

Za darmoPobierz AgentsRoom

Aplikacja towarzyszaca: monitoruj agentów w podrozy

Użyj Claude, Codex, Gemini CLI lub innego dostawcy AI.

Zainstaluj rozszerzenie
Chrome Web Store

Wysyłaj bugi i prośby bezpośrednio do swojego publicznego backlogu.

Spojrzenie na AgentsRoom w akcji.

Wiele projektów
Multi-provider
Wielu agentów
Status na żywo
Diff i commit
Aplikacja mobilna
Podgląd na żywo
Zespoły agentów
Testy w przeglądarce
Dev oparta na backlogu
Biblioteka promptów
Biblioteka umiejętności
Zobacz wszystkie funkcje