वॉइस डिक्टेशन : प्रॉम्प्ट बोलें, आपका एजेंट कोड करे

प्रॉम्प्ट टाइप करना बंद करें।
उन्हें बोलकर डिक्टेट करें।

वॉइस डिक्टेशन सीधे एजेंट कंपोज़र में रहती है। माइक्रोफोन पर क्लिक करें, अपना प्रॉम्प्ट बोलें, और ट्रांसक्राइब किया गया टेक्स्ट आपके कर्सर पर ड्राफ्ट में आ जाता है। आपके AI कोडिंग एजेंट्स के लिए speech-to-text, बिना किसी अलग डिक्टेशन ऐप को संभाले और बिना दो विंडो के बीच कॉपी-पेस्ट किए।

एक लंबा, सटीक प्रॉम्प्ट टाइप करने में मिनट लगते हैं। उसी प्रॉम्प्ट को बोलकर डिक्टेट करने में सेकंड। आपके एजेंट को ज्यादा कॉन्टेक्स्ट, कम स्पष्टीकरण के चक्कर, कम बर्बाद हुए टोकन। वैल्यू कोड से प्रॉम्प्ट पर शिफ्ट हो गई है, और एक अच्छा प्रॉम्प्ट लिखने का सबसे तेज तरीका है वॉइस डिक्टेशन।

AgentsRoom डाउनलोड करें देखें वॉइस डिक्टेशन कैसे काम करती है

वॉइस डिक्टेशन काम करते हुए : माइक पर क्लिक करें, प्रॉम्प्ट बोलें, लाइव वेवफॉर्म देखें, और speech-to-text ट्रांसक्रिप्ट कंपोज़र में आ जाता है, एडिट और भेजने के लिए तैयार।

यह वह बदलाव है जिसका जवाब वॉइस डिक्टेशन देती है। AI कोडिंग एजेंट के साथ काम करने में मुश्किल हिस्सा अब कोड लिखना नहीं है, वह काम एजेंट करता है। मुश्किल हिस्सा है प्रॉम्प्ट लिखना : आप क्या चाहते हैं, कौन सी पाबंदियां हैं, एज केस क्या हैं, कौन सी फाइल छूनी है, कौन सा बर्ताव टालना है, यह सब बताना। एक सटीक प्रॉम्प्ट ही पहली बार में सफलता और दस झुंझलाहट भरे चक्करों के बीच का फर्क होता है। और एक सटीक प्रॉम्प्ट लंबा होता है, जिससे उसे टाइप करना धीमा हो जाता है।

वॉइस डिक्टेशन टाइपिंग का टैक्स हटा देती है। आप कंपोज़र में माइक्रोफोन बटन पर क्लिक करते हैं, वह सब कुछ बोलते हैं जो आप टाइप करते, अक्सर उससे भी ज्यादा जितना आप टाइप करने की मेहनत करते, और speech-to-text ट्रांसक्रिप्शन ड्राफ्ट में दिख जाती है। आप 150 शब्द प्रति मिनट बोलते हैं, पर 150 शब्द प्रति मिनट टाइप नहीं करते। आवाज से टाइपिंग बस तेज है, और एक तेज चैनल का मतलब है कि आप अपने एजेंट को हर काम के लिए ज्यादा कॉन्टेक्स्ट देते हैं।

यह कोई ऊपर से चिपकाई गई चीज नहीं है। माइक्रोफोन AgentsRoom कंपोज़र का हिस्सा है, प्रॉम्प्ट लाइब्रेरी और स्केच टूल्स के बगल में। ट्रांसक्रिप्ट आपके कर्सर पर डाला जाता है, इसलिए आप एक ही ड्राफ्ट में टाइपिंग और डिक्टेशन मिला सकते हैं। कुछ भी अपने आप नहीं भेजा जाता : टेक्स्ट ड्राफ्ट में आता है, आप उसे पढ़ते हैं, मॉडल ने जो एक शब्द गलत सुना उसे ठीक करते हैं, और तैयार होने पर Enter दबाते हैं। यहां वॉइस डिक्टेशन लिखने में मदद है, ऑटोपायलट नहीं।

AgentsRoom कंपोज़र में वॉइस डिक्टेशन : एक माइक्रोफोन बटन यूजर की आवाज रिकॉर्ड करता है और speech-to-text ट्रांसक्रिप्ट एजेंट प्रॉम्प्ट ड्राफ्ट में डाला जाता है, साथ में एक लाइव वॉइस वेवफॉर्म विज़ुअलाइज़र

माइक्रोफोन बटन कंपोज़र टूलबार में होता है। रिकॉर्डिंग के दौरान, एक लाइव वॉइस वेवफॉर्म इनपुट लेवल दिखाता है, फिर ट्रांसक्राइब किया गया प्रॉम्प्ट ड्राफ्ट में दिख जाता है।

अपने प्रॉम्प्ट टाइप करने के बजाय बोलकर क्यों डिक्टेट करें

रफ्तार। आप टाइप करने से कई गुना तेज बोलते हैं, और कीज़ ढूंढते-ढूंढते अपना ख्याल नहीं खोते। दो पैराग्राफ का एक प्रॉम्प्ट जो टाइप करने में तीन मिनट लेता, वह तीस सेकंड की वॉइस डिक्टेशन है। अपने एजेंट्स को पूरे दिन प्रॉम्प्ट करते हुए, यह बचा हुआ समय असली घंटों में जुड़ जाता है।

सटीकता। चूंकि आवाज से टाइपिंग सस्ती है, आप ज्यादा कहते हैं। आप वह एज केस बताते हैं जिसे आप छोड़ देते, वह फाइल जिसका नाम आप नहीं लेते, वह बर्ताव जिसे आप टालना चाहते हैं। एक ज्यादा भरा-पूरा प्रॉम्प्ट ज्यादा सटीक प्रॉम्प्ट होता है, और यही वह चीज है जो एक AI कोडिंग एजेंट को पहली ही कोशिश में काम सही करवा देती है।

टोकन की किफायत। एजेंट के साथ हर स्पष्टीकरण का चक्कर टोकन खर्च करता है : एजेंट पूछता है, आप जवाब देते हैं, वह कॉन्टेक्स्ट दोबारा पढ़ता है। शुरू में ही एक सटीक डिक्टेट किया गया प्रॉम्प्ट इन चक्करों को खत्म कर देता है। कम आगे-पीछे का मतलब है उसी नतीजे तक पहुंचने में कम टोकन खर्च, जो आपके AI कोडिंग बिल पर सीधी बचत है।

हाथ खाली और मोबाइल। डेस्कटॉप पर आप अपने हाथ खाली रखते हैं जबकि एक एजेंट चल रहा होता है और अगला प्रॉम्प्ट जोर से बोल देते हैं। फोन पर, वॉइस डिक्टेशन एक मोबाइल कीबोर्ड से जूझे बिना एजेंट को प्रॉम्प्ट देने का सबसे तेज तरीका है। आइडिया बोलें, वह Mac पर आपके एजेंट में आ जाता है।

वॉइस डिक्टेशन कैसे काम करती है

माइक पर क्लिक करें, बोलें, जांचें, भेजें। चार कदम, कोई अलग ऐप नहीं, कोई कॉपी-पेस्ट नहीं।

कंपोज़र में माइक्रोफोन पर क्लिक करें

अपना कर्सर एजेंट कंपोज़र में रखें और टूलबार में माइक बटन पर क्लिक करें। पहली बार, macOS माइक्रोफोन की अनुमति मांगता है, AgentsRoom उस अनुरोध को सिस्टम तक पहुंचाता है ताकि आप इसे एक ही बार दें।

अपना प्रॉम्प्ट बोलें

बटन रिकॉर्डिंग में बदल जाता है : एक धड़कती हुई स्थिति जिसमें एक लाइव वॉइस वेवफॉर्म रियल टाइम में आपका इनपुट लेवल दिखाता है, ताकि आपको पता रहे कि माइक सच में ऑडियो पकड़ रहा है। वह सब कुछ बोलें जो आप अपने एजेंट को बताना चाहते हैं, अपनी भाषा में।

रोकें, और यह ट्रांसक्राइब कर देता है

रोकने के लिए दोबारा क्लिक करें। ऑडियो उस ट्रांसक्रिप्शन मॉडल को भेजा जाता है जो आपने चुना (डिफॉल्ट रूप से GPT-4o Transcribe, GPT-4o mini Transcribe, या OpenAI Whisper)। speech-to-text चलने के दौरान बटन एक ट्रांसक्राइबिंग स्थिति दिखाता है।

ट्रांसक्रिप्ट आपके कर्सर पर आ जाता है

ट्रांसक्राइब किया गया टेक्स्ट ड्राफ्ट में कर्सर पर डाला जाता है, जरूरत पड़ने पर एक अलग करने वाली जगह के साथ। आपके कर्सर की स्थिति बहाल हो जाती है, इसलिए आप टाइप करते रह सकते हैं या एक और हिस्सा डिक्टेट कर सकते हैं। टाइपिंग और डिक्टेशन एक ही प्रॉम्प्ट में आजादी से मिलते हैं।

जांचें और एडिट करें

अभी कुछ नहीं भेजा गया। प्रॉम्प्ट ड्राफ्ट में बैठा रहता है। उसे पढ़ें, मॉडल ने जो दुर्लभ शब्द गलत सुना उसे ठीक करें, कीबोर्ड से एक लाइन जोड़ें, एक वाक्य का क्रम बदलें। आपका एजेंट असल में जो पाता है उस पर आपका पूरा नियंत्रण रहता है।

तैयार होने पर भेजें

प्रॉम्प्ट अपने एजेंट को भेजने के लिए Enter दबाएं, ठीक एक टाइप किए गए मैसेज की तरह। एजेंट के नजरिए से यह बस टेक्स्ट है, इसलिए वॉइस डिक्टेशन Claude Code, Codex, Antigravity CLI, OpenCode और Aider के साथ एक जैसे काम करती है।

तेज प्रॉम्प्ट, कम टोकन

शुरू में ही एक बेहतर प्रॉम्प्ट बोलकर डिक्टेट करना एक कमजोर प्रॉम्प्ट टाइप करके बार-बार दोहराने से क्यों सस्ता है।

एक कमजोर प्रॉम्प्ट एक ऐसे तरीके से महंगा पड़ता है जो घड़ी पर नहीं दिखता। एजेंट के पास आगे बढ़ने के लिए पर्याप्त नहीं होता, इसलिए वह अंदाजा लगाता है, आप सुधारते हैं, वह पूरा कॉन्टेक्स्ट दोबारा पढ़ता है, आप फिर सुधारते हैं। इनमें से हर बारी इनपुट टोकन, आउटपुट टोकन और कैश रीड है। एक फीचर साफ करने के तीन चक्कर खुद उस फीचर से ज्यादा महंगे पड़ सकते हैं।

वॉइस डिक्टेशन इस गणित को पलट देती है। चूंकि बोलना तेज है, आप कॉन्टेक्स्ट शुरू में ही भर देते हैं : पाबंदियां, फाइल पाथ, टालने वाला बर्ताव, और वह उदाहरण जो आपके मन में है। एजेंट पहली कोशिश के ज्यादा करीब से सही करता है। आप तीस सेकंड की डिक्टेशन के बदले दो या तीन टले हुए स्पष्टीकरण के चक्कर पाते हैं।

और यह जुड़ता जाता है। एक सामान्य दिन में दर्जनों प्रॉम्प्ट होते हैं। अगर वॉइस डिक्टेशन उनमें से एक अच्छे हिस्से पर एक चक्कर बचाती है, तो बचे हुए टोकन दिन भर, टीम भर, महीने भर जुड़ते जाते हैं। सबसे सस्ता टोकन वह है जिसे आपको खुद को दोबारा समझाने पर कभी खर्च करना ही नहीं पड़ा।

और यह बस कम झंझट भी है। कम झंझट का मतलब है कि आप सच में वह लंबा, बेहतर प्रॉम्प्ट लिखते हैं, उस आलसी एक-लाइन वाले प्रॉम्प्ट के बजाय जिसे आप इसलिए टाइप करते क्योंकि पूरा वर्जन टाइप करना बहुत ज्यादा मेहनत लगता। वॉइस डिक्टेशन अच्छे प्रॉम्प्ट को आसान प्रॉम्प्ट बना देती है।

अपना ट्रांसक्रिप्शन मॉडल और भाषा चुनें

डेस्कटॉप पर वॉइस डिक्टेशन आपको सेटिंग्स में speech-to-text मॉडल और बोली जाने वाली भाषा चुनने देती है।

ट्रांसक्रिप्शन मॉडल (डेस्कटॉप)

GPT-4o Transcribe (डिफॉल्ट, सबसे बेहतर बहुभाषी क्वालिटी)
GPT-4o mini Transcribe (लगभग उतना ही सटीक, सस्ता)
OpenAI Whisper, whisper-1 (आसान प्रति-मिनट कीमत, मजबूत बहुभाषी आधार)

बोली जाने वाली भाषाएं

ऑटो-डिटेक्ट (डिफॉल्ट, मॉडल खुद भाषा पहचान लेता है)
English, Français, Español, Deutsch, Italiano, Português
Русский, 中文, 日本語, 한국어
العربية, हिन्दी, Bahasa Indonesia, Polski, Türkçe, Tiếng Việt

ऑटो-डिटेक्ट डिफॉल्ट है और ज्यादातर मामले संभाल लेता है। जब छोटी रिकॉर्डिंग गलत पहचानी जाएं तो किसी खास भाषा को फोर्स करें, पर सिर्फ वही भाषा फोर्स करें जो आप सच में बोल रहे हैं। सोलह भाषाएं और ऑटो-डिटेक्ट, इसलिए आप अपने शब्दों में डिक्टेट करते हैं और आपके एजेंट को साफ टेक्स्ट मिलता है।

वॉइस डिक्टेशन असल में अंदर क्या करती है

डेस्कटॉप पर, कंपोज़र ब्राउज़र MediaRecorder API से आपकी आवाज रिकॉर्ड करता है और ऑडियो को AgentsRoom ट्रांसक्रिप्शन बैकएंड पर भेजता है। ट्रांसक्रिप्शन आपके चुने हुए मॉडल पर सर्वर-साइड चलती है, इसलिए speech-to-text का भारी काम आपकी मशीन पर निर्भर नहीं करता, और ट्रांसक्रिप्ट सादे टेक्स्ट के रूप में वापस आता है, आपके कर्सर पर डाला हुआ। माइक्रोफोन, रिकॉर्डिंग और इंसर्शन सब उसी कंपोज़र का हिस्सा हैं जिसमें आप पहले से टाइप करते हैं।

मोबाइल पर, वॉइस डिक्टेशन जानबूझकर अलग तरीके से काम करती है। साथी ऐप ऑन-डिवाइस वाक् पहचान का इस्तेमाल करती है, इसलिए ऑडियो आपके फोन से कभी बाहर नहीं जाता। फिर पहचाना गया टेक्स्ट AgentsRoom के एंड-टू-एंड एन्क्रिप्टेड कनेक्शन के जरिए डेस्कटॉप तक पहुंचाया जाता है और उस एजेंट के इनपुट में डाला जाता है जिस पर आपने Mac पर फोकस किया है। माइक बटन दबाए रखें, बोलें, छोड़ें, और टेक्स्ट आपके डेस्कटॉप एजेंट में दिख जाता है।

दोनों जगह एक नियम साझा करती हैं : वॉइस डिक्टेशन कभी अपने आप नहीं भेजती। डेस्कटॉप पर ट्रांसक्रिप्ट जांच के लिए ड्राफ्ट में आता है। मोबाइल पर टेक्स्ट फोकस किए गए एजेंट इनपुट में बिना किसी कैरिज रिटर्न के पेस्ट होता है, इसलिए आप खुद Enter दबाते हैं। डिक्टेशन प्रॉम्प्ट लिखने का तरीका है, उसे आंख मूंदकर दागने का नहीं।

कॉन्फ़िगरेशन प्रोवाइडर-न्यूट्रल है। ट्रांसक्रिप्शन मॉडल आईडी speech-to-text बैकएंड से मैप होते हैं, आपके एजेंट CLI से नहीं। चाहे आपका एजेंट Claude Code हो, Codex, Antigravity CLI, OpenCode या Aider, डिक्टेट किया गया टेक्स्ट कंपोज़र में बस टेक्स्ट है, इसलिए वॉइस डिक्टेशन AgentsRoom के समर्थित हर प्रोवाइडर पर एक जैसा बर्ताव करती है।

वॉइस डिक्टेशन कहां काम करती है

डेस्कटॉप कंपोज़र और मोबाइल साथी ऐप में बिल्ट-इन, सोलह भाषाओं में।

डेस्कटॉप कंपोज़र

macOS पर एजेंट कंपोज़र में एक माइक्रोफोन बटन। GPT-4o Transcribe, GPT-4o mini Transcribe या Whisper पर सर्वर-साइड ट्रांसक्रिप्शन। रिकॉर्डिंग के दौरान लाइव वॉइस वेवफॉर्म, कर्सर पर डाला गया ट्रांसक्रिप्ट, टाइपिंग के साथ आजादी से मिलाने योग्य। सेटिंग्स में अपना मॉडल और भाषा चुनें।

मोबाइल साथी ऐप

iOS और Android साथी ऐप पर, डिक्टेट करने के लिए माइक दबाए रखें। वाक् पहचान ऑन-डिवाइस चलती है इसलिए ऑडियो फोन पर ही रहता है, और पहचाना गया टेक्स्ट एंड-टू-एंड एन्क्रिप्टेड होकर फोकस किए गए डेस्कटॉप एजेंट तक पहुंचाया जाता है। अपनी जेब से एजेंट को प्रॉम्प्ट देने का सबसे तेज तरीका।

बहुभाषी

सोलह बोली जाने वाली भाषाएं और स्वचालित पहचान : अंग्रेजी, फ्रेंच, स्पेनिश, जर्मन, इतालवी, पुर्तगाली, रूसी, चीनी, जापानी, कोरियाई, अरबी, हिंदी, इंडोनेशियाई, पोलिश, तुर्की और वियतनामी। अपनी मातृभाषा में डिक्टेट करें, आपके एजेंट को साफ ट्रांसक्राइब किया गया टेक्स्ट मिलता है।

प्रॉम्प्ट टाइप करना बनाम उन्हें बोलकर डिक्टेट करना

वही एजेंट, वही काम। अलग रफ्तार, अलग कॉन्टेक्स्ट, अलग टोकन बिल।

हर प्रॉम्प्ट टाइप करना

: आप अपनी बोलने की रफ्तार के एक हिस्से जितना ही टाइप करते हैं, इसलिए प्रॉम्प्ट छोटे रह जाते हैं।
: छोटे प्रॉम्प्ट कॉन्टेक्स्ट छोड़ देते हैं, इसलिए एजेंट अंदाजा लगाता है और आप उसे सुधारते हैं।
: हर सुधार एक और चक्कर है, ज्यादा इनपुट और आउटपुट टोकन।
: एक अलग डिक्टेशन ऐप या सिस्टम डिक्टेशन का मतलब है विंडो के बीच कॉपी-पेस्ट।
: फोन पर, मोबाइल कीबोर्ड लंबे प्रॉम्प्ट को तकलीफदेह बना देता है, इसलिए आप मुश्किल से ही प्रॉम्प्ट करते हैं।

वॉइस डिक्टेशन से डिक्टेट करना

: आप पूरा प्रॉम्प्ट सेकंडों में बोल देते हैं, इसलिए आप स्वाभाविक रूप से ज्यादा कहते हैं।
: शुरू में ज्यादा कॉन्टेक्स्ट का मतलब है एजेंट पहली कोशिश के ज्यादा करीब से काम सही करता है।
: कम स्पष्टीकरण के चक्कर का मतलब है उसी नतीजे पर कम टोकन खर्च।
: माइक कंपोज़र में है, ट्रांसक्रिप्ट ड्राफ्ट में आता है, कोई कॉपी-पेस्ट नहीं।
: फोन पर, माइक दबाए रखें और टेक्स्ट एन्क्रिप्टेड रिले के जरिए आपके डेस्कटॉप एजेंट में दिख जाता है।

वॉइस डिक्टेशन हर प्रॉम्प्ट को एक साथ ज्यादा लंबा, ज्यादा सटीक और लिखने में ज्यादा तेज बनाने का सबसे सस्ता तरीका है।

एक डिक्टेट किया गया प्रॉम्प्ट कैसा लगता है

आपको इसमें से कुछ भी लिखना नहीं पड़ता। आप इसे जोर से बोलते हैं, speech-to-text इसे नीचे दिए प्रॉम्प्ट में बदल देता है, और आप Enter दबाते हैं। इतना विस्तृत प्रॉम्प्ट टाइप करके बोलने की कोशिश करें और महसूस करें कि इसमें कितना वक्त लगता है।

माइक में बोला गया

login endpoint पर एक rate limiter जोड़ो।
प्रति IP प्रति मिनट पांच attempts की एक sliding window इस्तेमाल करो।
लिमिट पहुंचने पर Retry-After header के साथ एक 429 लौटाओ।
मौजूदा success path को बिना छेड़े रखो।
लिमिट पहुंचने के लिए एक unit test और एक मिनट बाद रीसेट होने के लिए एक जोड़ो।
signup endpoint को मत छुओ।

कुछ भी अपने आप नहीं भेजा जाता

वॉइस डिक्टेशन ड्राफ्ट में लिखती है, कभी भेजती नहीं। आप हमेशा ट्रांसक्रिप्ट पढ़ते हैं, उसे एडिट करते हैं और खुद Enter दबाते हैं। डिक्टेशन एक तेज कीबोर्ड है, ऑटोपायलट नहीं।

मोबाइल पर ऑन-डिवाइस

फोन पर, वाक् पहचान ऑन-डिवाइस चलती है : ऑडियो आपके डिवाइस से कभी बाहर नहीं जाता। पहचाना गया टेक्स्ट AgentsRoom के एंड-टू-एंड एन्क्रिप्टेड रिले के जरिए आपके Mac तक जाता है।

हर एजेंट के साथ काम करती है

डिक्टेट किया गया टेक्स्ट कंपोज़र में बस टेक्स्ट है, इसलिए वॉइस डिक्टेशन Claude Code, Codex, Antigravity CLI, OpenCode और Aider के साथ एक जैसे काम करती है। डिजाइन से ही प्रोवाइडर-न्यूट्रल।

FAQ

AgentsRoom में वॉइस डिक्टेशन क्या है ?

वॉइस डिक्टेशन एजेंट कंपोज़र में एक माइक्रोफोन बटन है जो आपकी आवाज को टेक्स्ट में बदल देता है। आप माइक पर क्लिक करते हैं, अपना प्रॉम्प्ट बोलते हैं, और ट्रांसक्राइब किया गया टेक्स्ट आपके कर्सर पर ड्राफ्ट में डाला जाता है। यह आपके AI कोडिंग एजेंट्स को प्रॉम्प्ट लिखने के लिए बिल्ट-इन speech-to-text और आवाज से टाइपिंग है, बिना किसी अलग डिक्टेशन ऐप और बिना विंडो के बीच कॉपी-पेस्ट के।

मैं प्रॉम्प्ट टाइप करने के बजाय उन्हें बोलकर क्यों डिक्टेट करूं ?

रफ्तार, सटीकता और टोकन की किफायत। आप टाइप करने से कई गुना तेज बोलते हैं, इसलिए प्रॉम्प्ट मिनटों के बजाय सेकंडों में बन जाते हैं। चूंकि डिक्टेट करना सस्ता है, आप स्वाभाविक रूप से ज्यादा कहते हैं, जिससे प्रॉम्प्ट ज्यादा सटीक होता है। एक सटीक प्रॉम्प्ट का मतलब है एजेंट के साथ कम स्पष्टीकरण के चक्कर, जिसका मतलब है उसी नतीजे तक पहुंचने में कम टोकन खर्च।

मैं कौन से ट्रांसक्रिप्शन मॉडल इस्तेमाल कर सकता हूं ?

डेस्कटॉप पर आप सेटिंग्स में तीन speech-to-text मॉडल में से चुनते हैं : GPT-4o Transcribe (डिफॉल्ट, सबसे बेहतर बहुभाषी क्वालिटी), GPT-4o mini Transcribe (लगभग उतना ही सटीक और सस्ता), और OpenAI Whisper, यानी whisper-1 मॉडल, आसान प्रति-मिनट कीमत और एक मजबूत बहुभाषी आधार के साथ।

क्या यह बस OpenAI Whisper है ?

Whisper उन मॉडल्स में से एक है जो आप चुन सकते हैं, जो साइड में एक अलग ऐप के रूप में चलने के बजाय सीधे कंपोज़र में बिल्ट-इन है। आप GPT-4o Transcribe या GPT-4o mini Transcribe भी चुन सकते हैं। AgentsRoom वॉइस डिक्टेशन की बात यह है कि डिक्टेशन सीधे आपके एजेंट के प्रॉम्प्ट इनपुट को निशाना बनाती है, इसलिए आप एक विंडो में डिक्टेट करके दूसरी में कॉपी-पेस्ट नहीं करते।

वॉइस डिक्टेशन कौन सी भाषाओं को सपोर्ट करती है ?

सोलह बोली जाने वाली भाषाएं और स्वचालित पहचान : अंग्रेजी, फ्रेंच, स्पेनिश, जर्मन, इतालवी, पुर्तगाली, रूसी, चीनी, जापानी, कोरियाई, अरबी, हिंदी, इंडोनेशियाई, पोलिश, तुर्की और वियतनामी। ऑटो-डिटेक्ट डिफॉल्ट है। जब छोटी रिकॉर्डिंग गलत पहचानी जाएं तो आप सेटिंग्स में किसी खास भाषा को फोर्स कर सकते हैं।

क्या मेरी आवाज किसी सर्वर पर भेजी जाती है ?

यह जगह पर निर्भर करता है। डेस्कटॉप पर, ऑडियो AgentsRoom ट्रांसक्रिप्शन बैकएंड पर भेजा जाता है, जो आपके चुने हुए मॉडल पर speech-to-text चलाता है और टेक्स्ट लौटाता है। मोबाइल पर, वाक् पहचान ऑन-डिवाइस चलती है, इसलिए ऑडियो आपके फोन से कभी बाहर नहीं जाता और सिर्फ पहचाना गया टेक्स्ट एंड-टू-एंड एन्क्रिप्टेड कनेक्शन के जरिए डेस्कटॉप तक पहुंचाया जाता है।

क्या डिक्टेट करने के बाद प्रॉम्प्ट अपने आप भेज दिया जाता है ?

नहीं। वॉइस डिक्टेशन हमेशा टेक्स्ट को ड्राफ्ट में डालती है, कभी भेजती नहीं। आप ट्रांसक्रिप्ट पढ़ते हैं, गलत सुना गया दुर्लभ शब्द सुधारते हैं, चाहें तो कीबोर्ड से जोड़ते या क्रम बदलते हैं, और तैयार होने पर Enter दबाते हैं। आपका एजेंट असल में क्या पाता है उस पर आपका नियंत्रण बना रहता है।

क्या मैं एक ही प्रॉम्प्ट में टाइपिंग और डिक्टेशन मिला सकता हूं ?

हां। ट्रांसक्रिप्ट आपके कर्सर पर डाला जाता है, पूरे ड्राफ्ट की जगह नहीं। इसलिए आप पहला आधा हिस्सा टाइप कर सकते हैं, बीच में एक लंबा पैराग्राफ डिक्टेट कर सकते हैं, फिर एक आखिरी लाइन टाइप कर सकते हैं। वॉइस डिक्टेशन कंपोज़र भरने का एक तेज तरीका है, जो कीबोर्ड के साथ पूरी तरह अनुकूल है।

क्या मैं अपने फोन से अपने Mac पर एक एजेंट को डिक्टेट कर सकता हूं ?

हां। मोबाइल साथी ऐप में एक माइक्रोफोन बटन है : उसे दबाए रखें, बोलें, छोड़ें। आवाज ऑन-डिवाइस पहचानी जाती है और टेक्स्ट एंड-टू-एंड एन्क्रिप्टेड होकर उस एजेंट तक पहुंचाया जाता है जिस पर आपने डेस्कटॉप पर फोकस किया है। मोबाइल कीबोर्ड इस्तेमाल किए बिना अपने Mac एजेंट को प्रॉम्प्ट भेजने का यह सबसे तेज तरीका है।

क्या वॉइस डिक्टेशन Claude Code, Codex और Antigravity के साथ काम करती है ?

हां, इन सबके साथ, और साथ ही OpenCode और Aider के साथ भी। डिक्टेट किया गया टेक्स्ट कंपोज़र में बस टेक्स्ट है, और ट्रांसक्रिप्शन कॉन्फ़िगरेशन प्रोवाइडर-न्यूट्रल है, इसलिए चाहे आप कोई भी एजेंट CLI चला रहे हों, वॉइस डिक्टेशन एक जैसा बर्ताव करती है।

इसके साथ अच्छा चलता है

Scratchpad

फुटर में एक बड़ा प्रॉम्प्ट एडिटर। एक लंबा ब्रीफ डिक्टेट करें, उसे scratchpad में निखारें, फिर अपने एजेंट को भेजें।

प्रॉम्प्ट लाइब्रेरी

आप जो प्रॉम्प्ट डिक्टेट करते हैं उन्हें दोबारा इस्तेमाल होने वाले टेम्पलेट के रूप में सेव करें। आवाज पहला ड्राफ्ट लिखती है, लाइब्रेरी अच्छों को संभालती है।

मोबाइल-डेस्कटॉप सिंक

एंड-टू-एंड एन्क्रिप्टेड लिंक जो आपके डिक्टेट किए गए टेक्स्ट को फोन से आपके Mac पर फोकस किए गए एजेंट तक ले जाता है।

रिमोट एजेंट कंट्रोल

अपने डेस्कटॉप एजेंट्स को अपने फोन से चलाएं। कीबोर्ड से दूर रहते हुए उन्हें प्रॉम्प्ट भेजने का सबसे तेज तरीका है डिक्टेशन।

मल्टी-प्रोवाइडर

Claude, Codex, Antigravity, OpenCode और Aider को साथ-साथ चलाएं। वॉइस डिक्टेशन इन हर एक पर एक जैसे काम करती है।

Sketch

कंपोज़र में ड्रॉ करें और एनोटेट करें। एक डिक्टेट किए गए प्रॉम्प्ट को एक तेज स्केच के साथ जोड़ें ताकि आपके एजेंट को शब्द और तस्वीर दोनों मिलें।

अपने एजेंट्स से बात करें, प्रॉम्प्ट टाइप करना बंद करें

AgentsRoom डाउनलोड करें और अपने प्रॉम्प्ट सीधे कंपोज़र में डिक्टेट करें। लिखने में तेज, कॉन्टेक्स्ट में भरपूर, टोकन में हल्के। आपके AI कोडिंग IDE में बिल्ट-इन वॉइस डिक्टेशन, डेस्कटॉप और मोबाइल दोनों पर।

मुफ़्तAgentsRoom डाउनलोड करें

कंपेनियन ऐप: चलते-फिरते अपने एजेंट्स मॉनिटर करें

Claude, Codex, Antigravity CLI या किसी अन्य AI प्रदाता का उपयोग करें।

एक्सटेंशन इंस्टॉल करें

Chrome Web Store

बग और अनुरोध सीधे अपने सार्वजनिक बैकलॉग में भेजें।

AgentsRoom को कार्य करते देखें।

मल्टी-प्रोजेक्ट

मल्टी-प्रोवाइडर

मल्टी-एजेंट

लाइव स्टेटस

फाइल डिफ और कमिट

मोबाइल ऐप

लाइव प्रीव्यू

एजेंट टीमें

ब्राउज़र ऑटोमेशन

बैकलॉग-संचालित डेव

प्रॉम्प्ट लाइब्रेरी

स्किल्स लाइब्रेरी

सभी सुविधाएँ देखें

प्रॉम्प्ट टाइप करना बंद करें।उन्हें बोलकर डिक्टेट करें।

अपने प्रॉम्प्ट टाइप करने के बजाय बोलकर क्यों डिक्टेट करें

वॉइस डिक्टेशन कैसे काम करती है

कंपोज़र में माइक्रोफोन पर क्लिक करें

अपना प्रॉम्प्ट बोलें

रोकें, और यह ट्रांसक्राइब कर देता है

ट्रांसक्रिप्ट आपके कर्सर पर आ जाता है

जांचें और एडिट करें

तैयार होने पर भेजें

तेज प्रॉम्प्ट, कम टोकन

अपना ट्रांसक्रिप्शन मॉडल और भाषा चुनें

ट्रांसक्रिप्शन मॉडल (डेस्कटॉप)

बोली जाने वाली भाषाएं

वॉइस डिक्टेशन असल में अंदर क्या करती है

वॉइस डिक्टेशन कहां काम करती है

डेस्कटॉप कंपोज़र

मोबाइल साथी ऐप

बहुभाषी

प्रॉम्प्ट टाइप करना बनाम उन्हें बोलकर डिक्टेट करना

हर प्रॉम्प्ट टाइप करना

वॉइस डिक्टेशन से डिक्टेट करना

एक डिक्टेट किया गया प्रॉम्प्ट कैसा लगता है

FAQ

इसके साथ अच्छा चलता है

Scratchpad

प्रॉम्प्ट लाइब्रेरी

मोबाइल-डेस्कटॉप सिंक

रिमोट एजेंट कंट्रोल

मल्टी-प्रोवाइडर

Sketch

अपने एजेंट्स से बात करें, प्रॉम्प्ट टाइप करना बंद करें

प्रॉम्प्ट टाइप करना बंद करें।
उन्हें बोलकर डिक्टेट करें।