Sprachdiktat : diktieren Sie Ihre Prompts, Ihr Agent programmiert

Hören Sie auf, Prompts zu tippen.
Diktieren Sie sie.

Das Sprachdiktat lebt direkt im Composer des Agenten. Klicken Sie auf das Mikrofon, sprechen Sie Ihren Prompt, und der transkribierte Text landet im Entwurf an Ihrer Cursorposition. Speech-to-Text für Ihre KI-Coding-Agenten, ohne separate Diktier-App, die man im Blick behalten muss, und ohne Copy-Paste zwischen zwei Fenstern.

Einen langen, präzisen Prompt zu tippen kostet Minuten. Denselben Prompt zu diktieren dauert Sekunden. Mehr Kontext für Ihren Agenten, weniger Klärungs-Rückfragen, weniger verschwendete Tokens. Der Wert ist vom Code zum Prompt gewandert, und Sprachdiktat ist der schnellste Weg, einen guten zu schreiben.

Sprachdiktat in Aktion : klicken Sie auf das Mikro, sprechen Sie den Prompt, beobachten Sie die Live-Wellenform, und das Speech-to-Text-Transkript landet im Composer, bereit zum Bearbeiten und Senden.

Hier ist die Verschiebung, auf die das Sprachdiktat antwortet. Das Schwierige an der Arbeit mit einem KI-Coding-Agenten ist nicht mehr das Schreiben des Codes, das übernimmt der Agent. Das Schwierige ist das Schreiben des Prompts : zu beschreiben, was Sie wollen, die Einschränkungen, die Randfälle, die Datei, die angefasst werden soll, das Verhalten, das vermieden werden muss. Ein präziser Prompt ist der Unterschied zwischen einem Treffer und zehn frustrierenden Rückfragen. Und ein präziser Prompt ist lang, also langsam zu tippen.

Das Sprachdiktat schafft die Tipp-Steuer ab. Sie klicken auf den Mikrofon-Button im Composer, Sie sagen alles, was Sie getippt hätten, oft mehr, als Sie sich die Mühe gemacht hätten zu tippen, und die Speech-to-Text-Transkription erscheint im Entwurf. Sie sprechen mit 150 Wörtern pro Minute, Sie tippen nicht mit 150 Wörtern pro Minute. Diktieren ist einfach schneller, und ein schnellerer Kanal bedeutet, dass Sie Ihrem Agenten pro Aufgabe mehr Kontext geben.

Das ist kein Aufsatz. Das Mikrofon ist Teil des AgentsRoom-Composers, direkt neben der Prompt-Bibliothek und den Zeichenwerkzeugen. Das Transkript wird an Ihrer Cursorposition eingefügt, sodass Sie Tippen und Diktieren im selben Entwurf mischen können. Nichts wird automatisch gesendet : der Text landet im Entwurf, Sie lesen ihn, korrigieren das eine Wort, das das Modell falsch verstanden hat, und drücken Enter, wenn Sie bereit sind. Sprachdiktat ist hier eine Schreibhilfe, kein Autopilot.

Sprachdiktat im AgentsRoom-Composer : ein Mikrofon-Button nimmt die Stimme des Nutzers auf und das Speech-to-Text-Transkript wird in den Prompt-Entwurf des Agenten eingefügt, mit einer Live-Wellenform-Visualisierung der Stimme

Der Mikrofon-Button sitzt in der Werkzeugleiste des Composers. Während der Aufnahme zeigt eine Live-Wellenform den Eingangspegel, dann erscheint der transkribierte Prompt im Entwurf.

Warum Sie Ihre Prompts diktieren statt sie zu tippen

Geschwindigkeit. Sie sprechen um ein Vielfaches schneller, als Sie tippen, und Sie verlieren nicht den Faden, während Sie nach Tasten suchen. Ein Prompt von zwei Absätzen, der drei Minuten zum Tippen bräuchte, ist ein Sprachdiktat von dreißig Sekunden. Über einen ganzen Tag des Promptens Ihrer Agenten summiert sich diese Zeit zu echten Stunden, die Sie zurückbekommen.

Präzision. Weil Diktieren kaum etwas kostet, sagen Sie mehr. Sie beschreiben den Randfall, den Sie übersprungen hätten, die Datei, die Sie nicht benannt hätten, das Verhalten, das Sie vermeiden wollen. Ein reicherer Prompt ist ein präziserer Prompt, und ein präziserer Prompt ist genau das, was einen KI-Coding-Agenten die Aufgabe beim ersten Versuch treffen lässt.

Token-Ökonomie. Jede Klärungs-Rückfrage mit einem Agenten kostet Tokens : der Agent fragt, Sie antworten, er liest den Kontext erneut. Ein präziser, vorab diktierter Prompt lässt diese Rückfragen zusammenfallen. Weniger Hin und Her bedeutet weniger verbrauchte Tokens für dasselbe Ergebnis, also eine direkte Ersparnis auf Ihrer KI-Coding-Rechnung.

Freihändig und mobil. Auf dem Desktop halten Sie die Hände frei, während ein Agent läuft, und diktieren den nächsten Prompt laut. Auf dem Smartphone ist das Sprachdiktat mit Abstand der schnellste Weg, einen Agenten zu füttern, ohne mit einer mobilen Tastatur zu kämpfen. Sprechen Sie die Idee aus, sie landet in Ihrem Agenten auf dem Mac.

So funktioniert das Sprachdiktat

Klicken Sie auf das Mikro, sprechen Sie, prüfen Sie, senden Sie. Vier Schritte, keine separate App, kein Copy-Paste.

01

Klicken Sie auf das Mikrofon im Composer

Setzen Sie Ihren Cursor in den Composer des Agenten und klicken Sie auf den Mikro-Button in der Werkzeugleiste. Beim ersten Mal fragt macOS nach der Mikrofon-Berechtigung, AgentsRoom leitet diese Anfrage an das System weiter, sodass Sie sie nur einmal erteilen.

02

Sprechen Sie Ihren Prompt

Der Button wechselt in den Aufnahmemodus : ein pulsierender Zustand mit einer Live-Wellenform, die Ihren Eingangspegel in Echtzeit anzeigt, damit Sie wissen, dass das Mikro auch wirklich Audio aufnimmt. Sagen Sie alles, was Ihr Agent wissen soll, in Ihrer eigenen Sprache.

03

Stoppen Sie, und es wird transkribiert

Klicken Sie erneut, um zu stoppen. Das Audio wird an das gewählte Transkriptionsmodell gesendet (GPT-4o Transcribe standardmäßig, GPT-4o mini Transcribe oder OpenAI Whisper). Der Button zeigt einen Transkriptionszustand, während das Speech-to-Text läuft.

04

Das Transkript landet an Ihrem Cursor

Der transkribierte Text wird an der Cursorposition in den Entwurf eingefügt, bei Bedarf mit einem trennenden Leerzeichen. Ihre Cursorposition wird wiederhergestellt, sodass Sie weitertippen oder einen weiteren Abschnitt diktieren können. Tippen und Diktieren mischen sich frei im selben Prompt.

05

Prüfen und bearbeiten

Noch wird nichts gesendet. Der Prompt liegt im Entwurf. Lesen Sie ihn, korrigieren Sie das seltene Wort, das das Modell falsch verstanden hat, fügen Sie eine Zeile per Tastatur hinzu, ordnen Sie einen Satz um. Sie behalten die volle Kontrolle darüber, was Ihr Agent tatsächlich erhält.

06

Senden, wenn Sie bereit sind

Drücken Sie Enter, um den Prompt an Ihren Agenten zu senden, genau wie eine getippte Nachricht. Aus Sicht des Agenten ist es nur Text, also funktioniert das Sprachdiktat gleichermaßen mit Claude Code, Codex, Gemini CLI, OpenCode und Aider.

Schnellere Prompts, weniger Tokens

Warum es günstiger ist, vorab einen besseren Prompt zu diktieren, als einen dünnen zu tippen und dann zu iterieren.

Ein dünner Prompt ist teuer auf eine Weise, die sich nicht auf der Uhr zeigt. Der Agent hat zu wenig Anhaltspunkte, also rät er, Sie korrigieren, er liest den ganzen Kontext erneut, Sie korrigieren wieder. Jede dieser Runden sind Eingabe-Tokens, Ausgabe-Tokens und Cache-Lesevorgänge. Drei Rückfragen, um ein Feature zu klären, können mehr kosten als das Feature selbst.

Das Sprachdiktat dreht die Ökonomie um. Weil Sprechen schnell ist, laden Sie den Kontext vorab : die Einschränkungen, die Dateipfade, das zu vermeidende Verhalten, das Beispiel, das Sie im Kopf haben. Der Agent trifft es näher am ersten Versuch. Sie tauschen dreißig Sekunden Diktat gegen zwei oder drei vermiedene Klärungszyklen.

Das summiert sich. Ein normaler Tag sind Dutzende Prompts. Wenn das Sprachdiktat bei einem guten Teil davon eine Rückfrage spart, stapeln sich die eingesparten Tokens über den Tag, über das Team, über den Monat. Der günstigste Token ist der, den Sie nie ausgeben mussten, um sich noch einmal zu erklären.

Es ist außerdem einfach weniger Reibung. Weniger Reibung bedeutet, dass Sie tatsächlich den längeren, besseren Prompt schreiben statt des faulen Einzeilers, den Sie getippt hätten, weil die vollständige Version zu viel Arbeit schien. Das Sprachdiktat macht den guten Prompt zum einfachen Prompt.

Wählen Sie Ihr Transkriptionsmodell und Ihre Sprache

Auf dem Desktop lässt Sie das Sprachdiktat das Speech-to-Text-Modell und die gesprochene Sprache in den Einstellungen wählen.

Transkriptionsmodelle (Desktop)

  • GPT-4o Transcribe (Standard, beste mehrsprachige Qualität)
  • GPT-4o mini Transcribe (fast genauso genau, günstiger)
  • OpenAI Whisper, whisper-1 (einfacher Minutenpreis, solide mehrsprachige Basis)

Gesprochene Sprachen

  • Automatische Erkennung (Standard, das Modell ermittelt die Sprache)
  • English, Français, Español, Deutsch, Italiano, Português
  • Русский, 中文, 日本語, 한국어
  • العربية, हिन्दी, Bahasa Indonesia, Polski, Türkçe, Tiếng Việt

Die automatische Erkennung ist der Standard und deckt die meisten Fälle ab. Erzwingen Sie eine bestimmte Sprache, wenn kurze Aufnahmen falsch erkannt werden, aber erzwingen Sie nur die Sprache, die Sie tatsächlich sprechen. Sechzehn Sprachen plus automatische Erkennung, sodass Sie in Ihren eigenen Worten diktieren und Ihr Agent sauberen Text erhält.

Was das Sprachdiktat unter der Haube wirklich tut

Auf dem Desktop nimmt der Composer Ihre Stimme mit der Browser-API MediaRecorder auf und sendet das Audio an das Transkriptions-Backend von AgentsRoom. Die Transkription läuft serverseitig auf dem von Ihnen gewählten Modell, sodass die schwere Speech-to-Text-Arbeit nicht von Ihrem Rechner abhängt, und das Transkript kommt als reiner Text zurück, eingefügt an Ihrer Cursorposition. Das Mikrofon, die Aufnahme und das Einfügen sind alle Teil desselben Composers, in dem Sie ohnehin schon tippen.

Auf dem Smartphone funktioniert das Sprachdiktat bewusst anders. Die Begleit-App nutzt lokale Spracherkennung, sodass das Audio Ihr Telefon nie verlässt. Der erkannte Text wird dann über die Ende-zu-Ende-verschlüsselte Verbindung von AgentsRoom an den Desktop weitergeleitet und in die Eingabe des Agenten gelegt, den Sie auf dem Mac fokussiert haben. Halten Sie den Mikro-Button, sprechen Sie, lassen Sie los, und der Text erscheint in Ihrem Desktop-Agenten.

Beide Oberflächen teilen eine Regel : das Sprachdiktat sendet niemals von selbst. Auf dem Desktop landet das Transkript im Entwurf zur Prüfung. Auf dem Smartphone wird der Text ohne Zeilenumbruch in die Eingabe des fokussierten Agenten eingefügt, sodass Sie selbst noch Enter drücken. Diktieren ist eine Art, den Prompt zu schreiben, keine Art, ihn blind abzufeuern.

Die Konfiguration ist provider-neutral. Die Transkriptionsmodell-IDs verweisen auf das Speech-to-Text-Backend, nicht auf Ihr Agenten-CLI. Egal ob Ihr Agent Claude Code, Codex, Gemini CLI, OpenCode oder Aider ist, der diktierte Text ist nur Text im Composer, sodass sich das Sprachdiktat über jeden von AgentsRoom unterstützten Provider identisch verhält.

Wo das Sprachdiktat funktioniert

Im Desktop-Composer und in der mobilen Begleit-App integriert, in sechzehn Sprachen.

Desktop-Composer

Ein Mikrofon-Button im Composer des Agenten auf macOS. Serverseitige Transkription auf GPT-4o Transcribe, GPT-4o mini Transcribe oder Whisper. Live-Wellenform der Stimme während der Aufnahme, Transkript an der Cursorposition eingefügt, frei mit Tippen mischbar. Wählen Sie Ihr Modell und Ihre Sprache in den Einstellungen.

Mobile Begleit-App

Auf der iOS- und Android-Begleit-App halten Sie das Mikro zum Diktieren gedrückt. Die Spracherkennung läuft lokal, sodass das Audio auf dem Telefon bleibt, und der erkannte Text wird Ende-zu-Ende-verschlüsselt an den fokussierten Desktop-Agenten weitergeleitet. Der schnellste Weg, einen Agenten aus Ihrer Hosentasche zu füttern.

Mehrsprachig

Sechzehn gesprochene Sprachen plus automatische Erkennung : Englisch, Französisch, Spanisch, Deutsch, Italienisch, Portugiesisch, Russisch, Chinesisch, Japanisch, Koreanisch, Arabisch, Hindi, Indonesisch, Polnisch, Türkisch und Vietnamesisch. Diktieren Sie in Ihrer Muttersprache, Ihr Agent erhält sauberen transkribierten Text.

Prompts tippen vs sie diktieren

Gleicher Agent, gleiche Aufgabe. Andere Geschwindigkeit, anderer Kontext, andere Token-Rechnung.

Jeden Prompt tippen

  • : Sie tippen mit einem Bruchteil Ihrer Sprechgeschwindigkeit, also bleiben Prompts kurz.
  • : Kurze Prompts überspringen Kontext, also rät der Agent und Sie korrigieren ihn.
  • : Jede Korrektur ist eine weitere Rückfrage, mehr Eingabe- und Ausgabe-Tokens.
  • : Eine separate Diktier-App oder das System-Diktat bedeutet Copy-Paste zwischen Fenstern.
  • : Auf dem Smartphone macht die mobile Tastatur lange Prompts mühsam, also prompten Sie kaum noch.

Mit Sprachdiktat diktieren

  • : Sie sprechen den ganzen Prompt in Sekunden, also sagen Sie ganz natürlich mehr.
  • : Mehr Kontext vorab bedeutet, dass der Agent die Aufgabe näher am ersten Versuch trifft.
  • : Weniger Klärungs-Rückfragen bedeuten weniger verbrauchte Tokens für dasselbe Ergebnis.
  • : Das Mikro ist im Composer, das Transkript landet im Entwurf, kein Copy-Paste.
  • : Auf dem Smartphone halten Sie das Mikro und der Text erscheint über das verschlüsselte Relay in Ihrem Desktop-Agenten.

Das Sprachdiktat ist der günstigste Weg, jeden Prompt zugleich länger, präziser und schneller zu schreiben.

Wie ein diktierter Prompt klingt

Sie müssen nichts davon schreiben. Sie sagen es laut, das Speech-to-Text verwandelt es in den Prompt unten, und Sie drücken Enter. Versuchen Sie, einen so detaillierten Prompt zu tippen, und spüren Sie, wie lange das dauert.

Ins Mikro gesprochen

Füge einen Rate Limiter zum Login-Endpoint hinzu.
Verwende ein gleitendes Fenster von fünf Versuchen pro Minute pro IP.
Gib einen 429 mit einem Retry-After-Header zurück, wenn das Limit erreicht ist.
Lass den bestehenden Erfolgs-Pfad unangetastet.
Füge einen Unit-Test für das Erreichen des Limits hinzu und einen für das Zurücksetzen nach einer Minute.
Fass den Signup-Endpoint nicht an.
Nichts wird automatisch gesendet
Das Sprachdiktat schreibt in den Entwurf, niemals in den Versand. Sie lesen das Transkript immer, bearbeiten es und drücken selbst Enter. Diktieren ist eine schnellere Tastatur, kein Autopilot.
Lokal auf dem Smartphone
Auf dem Telefon läuft die Spracherkennung lokal (on-device) : das Audio verlässt Ihr Gerät nie. Der erkannte Text reist über das Ende-zu-Ende-verschlüsselte Relay von AgentsRoom zu Ihrem Mac.
Funktioniert mit jedem Agenten
Der diktierte Text ist nur Text im Composer, also funktioniert das Sprachdiktat gleichermaßen mit Claude Code, Codex, Gemini CLI, OpenCode und Aider. Provider-neutral von Grund auf.

FAQ

Was ist das Sprachdiktat in AgentsRoom ?

Das Sprachdiktat ist ein Mikrofon-Button im Composer des Agenten, der Ihre Sprache in Text verwandelt. Sie klicken auf das Mikro, sprechen Ihren Prompt, und der transkribierte Text wird an Ihrer Cursorposition in den Entwurf eingefügt. Es ist integriertes Speech-to-Text zum Schreiben von Prompts an Ihre KI-Coding-Agenten, ohne separate Diktier-App und ohne Copy-Paste zwischen Fenstern.

Warum sollte ich Prompts diktieren statt sie zu tippen ?

Geschwindigkeit, Präzision und Token-Ökonomie. Sie sprechen um ein Vielfaches schneller, als Sie tippen, also dauern Prompts Sekunden statt Minuten. Weil Diktieren kaum etwas kostet, sagen Sie ganz natürlich mehr, was den Prompt präziser macht. Ein präziser Prompt bedeutet weniger Klärungs-Rückfragen mit dem Agenten, was weniger verbrauchte Tokens für dasselbe Ergebnis bedeutet.

Welche Transkriptionsmodelle kann ich verwenden ?

Auf dem Desktop wählen Sie aus drei Speech-to-Text-Modellen in den Einstellungen : GPT-4o Transcribe (der Standard, beste mehrsprachige Qualität), GPT-4o mini Transcribe (fast genauso genau und günstiger) und OpenAI Whisper, das Modell whisper-1 mit einfachem Minutenpreis und solider mehrsprachiger Basis.

Ist das nur OpenAI Whisper ?

Whisper ist eines der Modelle, die Sie wählen können, direkt in den Composer integriert statt als separate App nebenher laufend. Sie können auch GPT-4o Transcribe oder GPT-4o mini Transcribe wählen. Der Sinn des AgentsRoom-Sprachdiktats ist, dass das Diktat direkt auf die Prompt-Eingabe Ihres Agenten zielt, sodass Sie nicht in ein Fenster diktieren und in ein anderes per Copy-Paste übertragen.

Welche Sprachen unterstützt das Sprachdiktat ?

Sechzehn gesprochene Sprachen plus automatische Erkennung : Englisch, Französisch, Spanisch, Deutsch, Italienisch, Portugiesisch, Russisch, Chinesisch, Japanisch, Koreanisch, Arabisch, Hindi, Indonesisch, Polnisch, Türkisch und Vietnamesisch. Die automatische Erkennung ist der Standard. Sie können in den Einstellungen eine bestimmte Sprache erzwingen, wenn kurze Aufnahmen falsch erkannt werden.

Wird meine Stimme an einen Server gesendet ?

Das hängt von der Oberfläche ab. Auf dem Desktop wird das Audio an das Transkriptions-Backend von AgentsRoom gesendet, das das Speech-to-Text auf dem von Ihnen gewählten Modell ausführt und den Text zurückgibt. Auf dem Smartphone läuft die Spracherkennung lokal, sodass das Audio Ihr Telefon nie verlässt und nur der erkannte Text über die Ende-zu-Ende-verschlüsselte Verbindung an den Desktop weitergeleitet wird.

Wird der Prompt automatisch gesendet, nachdem ich diktiert habe ?

Nein. Das Sprachdiktat legt den Text immer im Entwurf ab, niemals in den Versand. Sie lesen das Transkript, korrigieren das seltene falsch verstandene Wort, fügen per Tastatur etwas hinzu oder ordnen es um, wenn Sie möchten, und drücken Enter, wenn Sie bereit sind. Sie behalten die Kontrolle darüber, was genau Ihr Agent erhält.

Kann ich Tippen und Diktieren im selben Prompt mischen ?

Ja. Das Transkript wird an Ihrer Cursorposition eingefügt, nicht anstelle des ganzen Entwurfs. So können Sie die erste Hälfte tippen, in der Mitte einen langen Absatz diktieren und dann eine letzte Zeile tippen. Das Sprachdiktat ist ein schnellerer Weg, den Composer zu füllen, voll kompatibel mit der Tastatur.

Kann ich von meinem Smartphone an einen Agenten auf meinem Mac diktieren ?

Ja. Die mobile Begleit-App hat einen Mikrofon-Button : halten Sie ihn, sprechen Sie, lassen Sie los. Die Sprache wird lokal erkannt und der Text Ende-zu-Ende-verschlüsselt an den Agenten weitergeleitet, den Sie auf dem Desktop fokussiert haben. Es ist der schnellste Weg, einen Prompt an Ihren Mac-Agenten zu schicken, ohne eine mobile Tastatur zu benutzen.

Funktioniert das Sprachdiktat mit Claude Code, Codex und Gemini ?

Ja, mit allen, plus OpenCode und Aider. Der diktierte Text ist nur Text im Composer, und die Transkriptions-Konfiguration ist provider-neutral, sodass sich das Sprachdiktat identisch verhält, egal welches Agenten-CLI Sie laufen lassen.

Passt gut zu

Sprechen Sie mit Ihren Agenten, hören Sie auf, Prompts zu tippen

Laden Sie AgentsRoom herunter und diktieren Sie Ihre Prompts direkt in den Composer. Schneller zu schreiben, reicher an Kontext, leichter bei den Tokens. Sprachdiktat integriert in Ihre KI-Coding-IDE, auf dem Desktop und auf dem Smartphone.

KostenlosAgentsRoom herunterladen

Companion-App: Agenten auch unterwegs im Blick behalten

Nutzen Sie Claude, Codex, Gemini CLI oder einen anderen AI-Anbieter.

Erweiterung installieren
Chrome Web Store

Bugs und Wünsche direkt in dein öffentliches Backlog schicken.

Ein Blick auf AgentsRoom in Aktion.

Multi-Projekte
Multi-Provider
Multi-Agenten
Live-Status
Diff & Commit
Mobile App
Live-Vorschau
Agent-Teams
Browser-Tests
Backlog-getriebene Entwicklung
Prompt-Bibliothek
Skills-Bibliothek
Alle Funktionen ansehen