Voice Mode : sprechen Sie mit Ihrem Agenten, er antwortet Ihnen

Hören Sie auf, das Terminal zu lesen.
Sprechen Sie mit Ihrem Agenten.

Voice Mode ist ein bidirektionales Sprachgespräch mit einem laufenden KI-Coding-Agenten. Einmal tippen, Ihren Zug sprechen, und der Agent antwortet laut mit natürlicher Stimme. Kein Prompt zu tippen, keine Wand aus Terminal-Ausgabe, durch die man scrollt, um herauszufinden, was passiert ist.

Schalten Sie den freihändigen Modus ein und er hört zwischen den Antworten weiter zu, sodass Sie durch den Raum gehen, den Build beobachten oder Ihren Kaffee trinken können, während Sie den Plan durchsprechen. Fragen Sie, wo das Refactoring steht, er sagt es Ihnen. Sagen Sie führe die Tests aus und gib mir Bescheid, er tut es und spricht dann das Ergebnis.

AgentsRoom Voice Mode : ein bidirektionales Sprachgespräch mit einem KI-Coding-Agenten, ein Zuhör-Status mit Live-Anzeige, ein freihändiger Schalter, ein Piepton, eine wählbare Antwortstimme und automatische Spracherkennung

Voice Mode in Aktion : der Agent hört zu, freihändig ist aktiviert, die Antwortstimme ist gewählt, und der Agent antwortet laut zwischen Ihren Zügen.

Hier ist die Verschiebung, auf die Voice Mode antwortet. Ihr Agent läuft länger und erledigt mehr von allein : er bearbeitet Dateien, führt Befehle aus, schreibt Tests, repariert, was er kaputt gemacht hat. Der Engpass ist nicht mehr das Schreiben von Code, sondern in der Schleife zu bleiben, während der Agent arbeitet. Zeile für Zeile Terminal-Ausgabe zu lesen oder noch einen Prompt zu tippen, um zu fragen, was los ist, zieht Sie bei jedem einzelnen Zug zurück an die Tastatur.

Voice Mode verwandelt diese Schleife in ein Gespräch. Sie sprechen Ihren Zug laut, der Agent antwortet laut. Sie stellen eine Frage, geben eine Korrektur, bestätigen einen Plan, alles per Stimme, und Sie hören die Antwort gesprochen mit natürlicher Stimme, statt sie auf dem Bildschirm zu entziffern. Es ist der Unterschied zwischen einen Prozess zu überwachen und mit einem Teamkollegen zu sprechen.

Das ist nicht dasselbe wie Sprachdiktat. Diktat ist einseitig : Sie sprechen, es transkribiert Ihre Worte in den Composer, und Sie lesen trotzdem die Antwort des Agenten. Voice Mode ist bidirektional : Sprache rein, Sprache raus, ein lebendiges Hin und Her. Diktat hilft Ihnen, einen Prompt schneller zu schreiben. Voice Mode lässt Sie Tastatur und Bildschirm komplett überspringen, während Sie einen Agenten in Bewegung halten.

Warum mit Ihrem Agenten sprechen, statt zu tippen und zu lesen

In der Schleife bleiben, freihändig. Ein fähiger Agent kann auf eine einzige Anweisung hin minutenlang laufen. Mit Voice Mode im freihändigen Modus bleiben Sie die ganze Zeit in Kontakt, ohne an der Tastatur zu sitzen. Fragen Sie nach einem Status, steuern Sie den nächsten Schritt, bestätigen Sie eine Entscheidung, alles während Sie am Whiteboard stehen oder zusehen, wie die App neu lädt.

Ein echtes Hin und Her. Einen Prompt zu tippen, zu warten, die Ausgabe zu lesen, wieder zu tippen, ist eine holprige Schleife. Den eigenen Zug zu sprechen und die Antwort zu hören, ist ein Gespräch. Es ist schneller für kurze Züge (ein schnelles Ja, eine kleine Korrektur, eine weitere Frage) und weit weniger ermüdend, als bei jedem Update Wände aus Terminal-Text zu lesen.

Augen frei, Bildschirm frei. Die Antwort des Agenten zu hören bedeutet, dass Sie nicht aufs Terminal schauen müssen, um zu wissen, was er getan hat. Werfen Sie einen Blick auf den Build, Ihre Tests, Ihr Design oder auf gar nichts, und lassen Sie das gesprochene Update Ihnen sagen, wo die Dinge stehen. Der Agent kommentiert, Sie halten Ihre Augen dort, wo die eigentliche Arbeit ist.

Auf demselben Sprach-Guthaben. Voice Mode nutzt das AgentsRoom-Sprach-Backend, Spracherkennung beim Reingehen und Sprachsynthese beim Rausgehen, und schöpft aus demselben Sprach-Guthaben wie das Diktat. Ein einziges Guthaben treibt sowohl das Diktieren von Prompts als auch vollständige gesprochene Gespräche an, es gibt also nichts zusätzlich einzurichten.

So funktioniert Voice Mode

Öffnen Sie es bei einem laufenden Agenten, sprechen Sie, hören Sie zu, wiederholen Sie. Eine gesprochene Schleife statt Tippen-und-Lesen.

01

Öffnen Sie Voice Mode bei einem laufenden Agenten

Voice Mode startet für einen Agenten, der bereits in seinem Terminal läuft, aus dem Composer dieses Agenten. Es braucht eine aktive Sitzung, weil das Gespräch mit genau diesem Agenten geführt wird, in seinem aktuellen Kontext, nicht in einem leeren Chat.

02

Tippen, um zu sprechen

Einmal tippen und Ihren Zug sprechen : eine Frage, eine Anweisung, eine Korrektur. Der Status wechselt mit einer Live-Anzeige auf Zuhören, sodass Sie sehen, dass das Mikrofon aufnimmt. Wählen Sie freihändig, damit es zwischen den Zügen weiter zuhört, oder Tippen-zum-Sprechen, um einen Zug nach dem anderen zu machen.

03

Es transkribiert und sendet an den Agenten

Wenn Sie fertig sind, wird Ihre Sprache transkribiert und als Ihre Nachricht an den laufenden Agenten gesendet, genau so, als hätten Sie sie getippt. Der Status durchläuft Transkription und Senden, sodass Sie immer wissen, wo Ihr Zug in der Pipeline steht.

04

Der Agent arbeitet

Der Agent verarbeitet Ihren Zug in seiner eigenen Sitzung : er kann Dateien lesen, Befehle ausführen, Code bearbeiten, Tests laufen lassen, alles, was Ihre Nachricht verlangt hat. Voice Mode zeigt einen Arbeits-Status mit dem Namen des Agenten, während er die Aufgabe erledigt, genau wie ein normaler Zug im Terminal.

05

Hören Sie die Antwort laut

Wenn der Agent antwortet, wird seine Antwort laut in der von Ihnen gewählten Stimme vorgelesen. Sie hören den Status, das Ergebnis, die nächste Frage, ohne das Terminal zu lesen. Ein optionaler Piepton markiert die Grenze zwischen den Zügen, damit Sie wissen, wann Sie wieder dran sind.

06

Nehmen Sie Ihren nächsten Zug

Im freihändigen Modus hört es bereits wieder zu, Sie sprechen einfach weiter. Bei Tippen-zum-Sprechen tippen Sie, um Ihren nächsten Zug zu starten. Das Gespräch geht so lange weiter, wie Sie möchten, dann schließen Sie Voice Mode und der Agent ist genau dort, wo Sie ihn in seinem Terminal gelassen haben.

Freihändig, damit Sie ohne Tastatur in der Schleife bleiben

Der Sinn von Voice Mode ist nicht die Neuheit. Es geht darum, mit einem schnellen Agenten Schritt zu halten, ohne an Ihren Schreibtisch gefesselt zu sein.

Ein moderner Coding-Agent erledigt pro Zug viel, und die Lücken zwischen Ihren Zügen sind die Stellen, an denen Sie normalerweise den Kontext verlieren würden : Sie gehen weg, der Agent wird fertig, und Sie kommen zu einem Bildschirm voller Ausgabe zurück, die Sie nun lesen müssen. Der freihändige Voice Mode schließt diese Lücke. Der Agent sagt Ihnen laut, was er getan hat, wenn er fertig ist, und Sie antworten, ohne sich wieder hinzusetzen.

Freihändig hält das Mikrofon zwischen den Zügen offen, sodass das Gespräch wie ein Telefonat fließt : Sie sprechen, er arbeitet, er spricht, Sie sprechen wieder. Sie möchten lieber jeden Zug kontrollieren ? Tippen-zum-Sprechen macht einen Zug nach dem anderen, praktisch in einem lauten Raum oder wenn Sie sich nur gelegentlich einschalten wollen.

Der Piepton ist eine Kleinigkeit, die in der Praxis zählt. Wenn Sie nicht auf den Bildschirm schauen, sagt Ihnen ein kurzer Piepton, dass der Agent zu Ende gesprochen hat und Sie dran sind, sodass Sie ihm nicht ins Wort fallen und nicht im Stillen warten und sich fragen, ob er fertig ist.

Das macht Voice Mode für echte Arbeit nützlich und nicht nur zu einer Demo. Es ist für die Momente gebaut, in denen der Agent die schwere Arbeit erledigt und Sie steuern, nachfragen und bestätigen wollen, während Ihre Hände und Augen für alles andere frei sind.

Wählen Sie Ihre Stimme, folgen Sie dem Gespräch

Voice Mode gibt Ihnen die Einstellungen, die ein gesprochenes Gespräch angenehm machen, und zeigt Ihnen genau, wo jeder Zug steht.

Stimmen und Signale

  • Antwortstimme : alloy und andere natürliche Stimmen
  • Freihändig : hört zwischen den Zügen weiter zu
  • Tippen-zum-Sprechen : ein Zug nach dem anderen
  • Piepton : ein kurzer Ton markiert jede Zug-Grenze
  • Auto-Sprache : sprechen Sie in Ihren eigenen Worten, es erkennt die Sprache

Status des Gesprächs

  • Zuhören : das Mikrofon nimmt Ihren Zug auf
  • Transkribieren : Ihre Sprache wird in Text umgewandelt
  • Senden : Ihre Nachricht geht an den Agenten
  • Arbeiten : der Agent erledigt die Aufgabe
  • Sprechen : die Antwort des Agenten wird laut vorgelesen

Die automatische Spracherkennung bedeutet, dass Sie keine Sprache auswählen müssen, um zu sprechen, und die sichtbaren Status bedeuten, dass Sie nie raten müssen, ob der Agent Sie gehört hat, arbeitet oder gleich antwortet.

Was Voice Mode unter der Haube wirklich tut

Voice Mode ist eine Vollduplex-Schicht über einer normalen Agenten-Sitzung. An Ihrem Zug nimmt es Ihre Stimme auf und sendet das Audio an das AgentsRoom-Backend, das die Spracherkennung ausführt und die Transkription zurückgibt. Diese Transkription wird als Ihre Nachricht in den laufenden Agenten eingespeist, sodass es aus Sicht des Agenten nur ein weiterer Zug in dem Gespräch ist, das er bereits mit Ihnen führt.

An der Reihe des Agenten wird seine textuelle Antwort für die Sprachsynthese in der von Ihnen gewählten Stimme zurück an das AgentsRoom-Backend gesendet, und das entstehende Audio wird Ihnen abgespielt. Spracherkennung rein, Sprachsynthese raus, mit der echten Arbeit des Agenten dazwischen. Deshalb braucht Voice Mode ein Konto und einen laufenden Agenten : das Sprach-Backend leitet die Sprachmodelle weiter, und das Gespräch ist an eine aktive Sitzung gebunden.

Da der Agent immer nur Text sieht, ist Voice Mode von Natur aus provider-neutral. Ob der Agent Claude Code, Codex, Gemini CLI, OpenCode oder Aider ist, Ihr transkribierter Zug kommt als Nachricht an, und seine Antwort wird auf dieselbe Weise gesprochen. Nichts in der Sprach-Schicht hängt davon ab, welches CLI darunter läuft.

Voice Mode und Sprachdiktat teilen sich dasselbe Sprach-Guthaben, da beide auf demselben Sprach-Backend aufbauen. Das Diktat verbraucht Guthaben, um einseitig zu transkribieren ; Voice Mode verbraucht es für den Hin- und Rückweg aus Transkription plus gesprochenen Antworten, von Natur aus offen, denn ein Gespräch kann so lange laufen, wie Sie sprechen.

Wo Voice Mode funktioniert

Ein bidirektionales gesprochenes Gespräch mit einem laufenden Desktop-Agenten, Sprache rein und Sprache raus.

Desktop, bei einem aktiven Agenten

Voice Mode läuft auf macOS, gestartet aus dem Composer eines bereits laufenden Agenten. Es spricht mit genau diesem Agenten in seiner aktuellen Sitzung, sodass das Gespräch den vollen Kontext hat, den der Agent aufgebaut hat, kein leeres Blatt.

Sprache rein

Ihr Zug wird vom Mikrofon aufgenommen und vom AgentsRoom-Sprach-Backend transkribiert, dann als Ihre Nachricht an den Agenten gesendet. Freihändig hält das Mikrofon zwischen den Zügen offen ; Tippen-zum-Sprechen macht einen Zug nach dem anderen. Die Sprache wird automatisch erkannt.

Sprache raus

Die Antwort des Agenten wird per Sprachsynthese laut in der von Ihnen gewählten Stimme vorgelesen (alloy und andere). Ein optionaler Piepton markiert das Ende jeder gesprochenen Antwort, sodass Sie wissen, dass Sie dran sind, selbst wenn Sie nicht auf den Bildschirm schauen.

Sprachdiktat vs Voice Mode

Beide nutzen Ihre Stimme. Das eine schreibt einen Prompt für Sie, das andere führt ein Gespräch.

Sprachdiktat (einseitig)

  • : Sie sprechen, es transkribiert Ihre Worte in den Composer.
  • : Sie lesen die Antwort des Agenten trotzdem selbst auf dem Bildschirm.
  • : Ideal, um schnell einen langen, präzisen Prompt zu schreiben.
  • : Sie bleiben an der Tastatur, um zu senden und das Ergebnis zu lesen.
  • : Eine Richtung : Stimme rein, Text im Entwurf, ab da übernehmen Sie.

Voice Mode (bidirektional)

  • : Sie sprechen Ihren Zug, der Agent antwortet laut.
  • : Sie hören die Antwort, kein Bedarf, das Terminal zu lesen.
  • : Ideal, um zu steuern und nachzufragen, während der Agent arbeitet.
  • : Freihändig hält das Gespräch ohne Tastatur am Laufen.
  • : Beide Richtungen : Stimme rein, der Agent arbeitet, Stimme raus.

Nutzen Sie das Diktat, um in Sekunden einen guten Prompt zu schreiben, und Voice Mode, um mit dem Agenten zu sprechen, während er ihn ausführt.

Wie ein gesprochener Zug klingt

Sie tippen nichts davon. Sie sprechen Ihren Zug laut, der Agent erledigt die Arbeit, und er spricht die Antwort zurück. Hier ist eine Runde eines Voice-Mode-Gesprächs.

Eine Gesprächsrunde

Sie : Wo stehen wir beim Login-Refactoring?
Agent : Der Rate Limiter ist drin und der Erfolgspfad ist unangetastet. Zwei Tests sind noch rot.
Sie : Repariere die zwei fehlschlagenden Tests, lass dann die ganze Suite laufen und sag mir die Zahl.
Agent : Erledigt. Beide bestehen jetzt. Komplette Suite : 142 bestanden, 0 fehlgeschlagen.
Sie : Gut. Committe es mit einer kurzen Nachricht und hör da auf.
Sie starten jeden Zug
Voice Mode handelt nicht von allein. Sie tippen oder sprechen, um einen Zug zu machen, und der Agent tut nur das, was Ihre gesprochene Nachricht verlangt hat. Tippen-zum-Sprechen gibt Ihnen Zug-für-Zug-Kontrolle ; freihändig hört nur zu, solange Voice Mode offen ist.
Konto und aktiver Agent
Voice Mode braucht ein angemeldetes Konto, weil das Sprach-Backend die Sprachmodelle weiterleitet und Sprach-Guthaben abrechnet, und einen laufenden Agenten, weil das Gespräch an diese aktive Sitzung und ihren Kontext gebunden ist.
Funktioniert mit jedem Agenten
Der Agent sieht nur Text, also verhält sich Voice Mode mit Claude Code, Codex, Gemini CLI, OpenCode und Aider gleich. Die Sprach-Schicht umhüllt die Sitzung und hängt nie davon ab, welches CLI darunter läuft.

FAQ

Was ist Voice Mode in AgentsRoom ?

Voice Mode ist ein bidirektionales Sprachgespräch mit einem laufenden KI-Coding-Agenten. Sie tippen und sprechen Ihren Zug, Ihre Sprache wird transkribiert und an den Agenten gesendet, der Agent erledigt die Arbeit, und seine Antwort wird Ihnen laut mit natürlicher Stimme vorgelesen. So können Sie mit einem Agenten sprechen und seine Antworten hören, statt Prompts zu tippen und Terminal-Ausgabe zu lesen.

Worin unterscheidet sich Voice Mode vom Sprachdiktat ?

Sprachdiktat ist einseitig : Sie sprechen und Ihre Worte werden als Prompt in den Composer transkribiert, dann lesen Sie die Antwort des Agenten auf dem Bildschirm. Voice Mode ist bidirektional : Sie sprechen Ihren Zug und der Agent antwortet laut, ein lebendiges gesprochenes Hin und Her. Diktat hilft, einen Prompt schneller zu schreiben ; Voice Mode lässt Sie ein freihändiges Gespräch führen, während der Agent arbeitet.

Spricht der Agent wirklich zurück ?

Ja. Die Antwort des Agenten wird per Sprachsynthese in Sprache umgewandelt und laut in der von Ihnen gewählten Stimme abgespielt. Sie hören den Status, das Ergebnis und die nächste Frage, sodass Sie das Terminal nicht lesen müssen, um zu wissen, was der Agent getan hat.

Was ist der freihändige Modus ?

Freihändig hält das Mikrofon zwischen den Zügen offen, sodass das Gespräch wie ein Telefonat fließt : Sie sprechen, der Agent arbeitet, er spricht, und er hört bereits auf Ihren nächsten Zug. Wenn Sie lieber jeden Zug kontrollieren, macht Tippen-zum-Sprechen einen Zug nach dem anderen, praktisch in einem lauten Raum.

Kann ich die Stimme wählen ?

Ja. Sie wählen die Antwortstimme (alloy und andere Stimmen), die für die gesprochenen Antworten des Agenten verwendet wird. Sie können auch einen optionalen Piepton aktivieren, der einen kurzen Ton an der Grenze zwischen den Zügen abspielt, damit Sie wissen, wann der Agent zu Ende gesprochen hat und Sie dran sind.

Welche Sprachen unterstützt Voice Mode ?

Voice Mode erkennt automatisch die Sprache, die Sie sprechen, sodass Sie in Ihren eigenen Worten sprechen können, ohne vorher eine Sprache zu wählen. Die Transkription wird vom AgentsRoom-Sprach-Backend übernommen, demselben Sprach-Stack, der auch für das Diktat verwendet wird.

Brauche ich ein Konto und einen laufenden Agenten ?

Ja zu beidem. Voice Mode braucht ein angemeldetes Konto, weil das Sprach-Backend die Sprachmodelle weiterleitet und aus Ihrem Sprach-Guthaben schöpft, und es braucht einen bereits laufenden Agenten, weil das Gespräch an diese aktive Sitzung gebunden ist und ihren aktuellen Kontext nutzt.

Verbraucht Voice Mode Guthaben ?

Ja. Voice Mode läuft auf demselben Sprach-Guthaben wie das Diktat. Das Diktat verbraucht Guthaben, um Ihre Sprache einseitig zu transkribieren ; Voice Mode verbraucht es für den vollständigen Hin- und Rückweg aus Transkription plus gesprochenen Antworten, von Natur aus offen, denn ein Gespräch kann so lange laufen, wie Sie sprechen.

Ist es in der Online-Web-Demo verfügbar ?

Nein. Die öffentliche Web-Demo simuliert das Backend, daher kann das Echtzeit-Sprachgespräch dort nicht laufen. Ein Klick auf Voice Mode in der Demo zeigt einen Hinweis, der Sie einlädt, AgentsRoom herunterzuladen, wo Voice Mode mit Ihren echten Agenten spricht.

Funktioniert Voice Mode mit Claude Code, Codex und Gemini ?

Ja, mit allen, plus OpenCode und Aider. Der Agent sieht immer nur Text, also kommt Ihr gesprochener Zug als Nachricht an und seine Antwort wird auf dieselbe Weise gesprochen, egal welches Agenten-CLI darunter läuft.

Passt gut zu

Sprechen Sie mit Ihren Agenten, hören Sie ihre Antworten

Laden Sie AgentsRoom herunter und öffnen Sie Voice Mode bei einem laufenden Agenten. Sprechen Sie Ihren Zug, hören Sie die Antwort und bleiben Sie freihändig in der Schleife, während der Agent die Arbeit erledigt. Ein bidirektionales Sprachgespräch, integriert in Ihre KI-Coding-IDE.

KostenlosAgentsRoom herunterladen

Companion-App: Agenten auch unterwegs im Blick behalten

Nutzen Sie Claude, Codex, Gemini CLI oder einen anderen AI-Anbieter.

Erweiterung installieren
Chrome Web Store

Bugs und Wünsche direkt in dein öffentliches Backlog schicken.

Ein Blick auf AgentsRoom in Aktion.

Multi-Projekte
Multi-Provider
Multi-Agenten
Live-Status
Diff & Commit
Mobile App
Live-Vorschau
Agent-Teams
Browser-Tests
Backlog-getriebene Entwicklung
Prompt-Bibliothek
Skills-Bibliothek
Alle Funktionen ansehen