AgentsRoom में अब Ollama का समर्थन: लोकल मॉडल क्लाउड के साथ-साथ चलाएँ

Ollama अब AgentsRoom में एक provider है। Llama, Qwen, Gemma और DeepSeek जैसे लोकल ओपन-सोर्स मॉडल क्लाउड एजेंट्स के साथ-साथ चलाएँ, और हर एजेंट पर लोकल-या-क्लाउड डायल सेट करें, जो बातचीत के बीच में ही बदला जा सकता है।

3 जुलाई 2026

Ollama अब AgentsRoom में एक समर्थित provider है। आप किसी भी एजेंट को एक लोकल ओपन-सोर्स मॉडल सौंप सकते हैं, उसे Claude, Codex, Grok Build और Mistral Vibe के साथ उसी बोर्ड पर चला सकते हैं, और बातचीत के बीच में ही अपना context खोए बिना स्विच कर सकते हैं। जिन ओपन-वेट मॉडलों को आप पहले से जानते हैं, Llama, Qwen, Gemma, DeepSeek और बाकी, वे अब आपकी room में ड्यूटी पर हाज़िर हैं।

Ollama हमारे जोड़े गए बाकी providers जैसा बिल्कुल नहीं है। यह दाँव लगाने के लिए एक और एजेंट भर नहीं है। यह पूरे ओपन-सोर्स मॉडल कैटलॉग तक एक दरवाज़ा है, जो आपके अपने हार्डवेयर पर चलता है, प्रति टोकन शून्य लागत पर और डिफ़ॉल्ट रूप से निजी।

Ollama क्या है

Ollama एक मुफ़्त, ओपन-सोर्स runtime है जो बड़े भाषा मॉडलों को आपकी अपनी मशीन पर डाउनलोड करके चलाता है। एक कमांड, ollama pull qwen3-coder, मॉडल को ले आती है। ollama run उसे http://localhost:11434 पर एक लोकल endpoint पर सर्व करता है। यह एक OpenAI-संगत API उपलब्ध कराता है, और ठीक इसी वजह से कोडिंग एजेंट बिना किसी कस्टम जोड़-तोड़ के इससे बात कर पाते हैं, और यह macOS, Windows और Linux पर उपलब्ध है।

यह tool calling का भी समर्थन करता है, वही चीज़ जिसकी एक कोडिंग एजेंट को फ़ाइलें एडिट करने और कमांड चलाने के लिए ज़रूरत होती है, न कि सिर्फ़ चैट करने के लिए। मॉडल लाइब्रेरी ओपन वेट्स के दिग्गजों की सूची जैसी पढ़ी जाती है: Llama, Qwen, Gemma, DeepSeek, Mistral, Phi और भी बहुत कुछ, ऐसे आकारों में जो एक लैपटॉप से लेकर वर्कस्टेशन GPU तक हर चीज़ के लिए उपयुक्त हैं।

दो तथ्य इस लेख के बाकी हिस्से को थामे रखते हैं। मॉडल आपकी मशीन पर चलते हैं, इसलिए आप जो कुछ भी टाइप करते हैं वह नेटवर्क पार नहीं करता। और लोकल inference का कोई प्रति-टोकन बिल नहीं होता। नीचे जो कुछ भी है वह इन्हीं दो का परिणाम है।

लोकल-बनाम-क्लाउड का वह चुनाव जिसे हर कोई स्वीकार कर लेता है

अब तक फ़ैसला दो में से एक होता था। पूरा दाँव क्लाउड पर लगाएँ तो आपको फ्रंटियर रीज़निंग मिलती है, पर हर prompt और हर फ़ाइल जिसे आप छूते हैं, किसी तीसरे-पक्ष के API को भेजी जाती है और टोकन के हिसाब से मीटर होती है। पूरा दाँव लोकल पर लगाएँ तो आपको निजता और शून्य लागत मिलती है, पर उन समस्याओं पर सबसे मज़बूत मॉडल छोड़ देते हैं जिन्हें वाकई उनकी ज़रूरत होती है। ज़्यादातर टीमें एक ही लेन चुनती हैं और उसी में बनी रहती हैं।

यह दोतरफ़ा चुनाव एक झूठा चुनाव है, क्योंकि एक कोडबेस सिर्फ़ एक ही किस्म का काम नहीं होता। चालीस फ़ाइलों में किसी symbol का नाम बदलना, boilerplate टेस्ट लिखना, किसी diff का सारांश देना, कमिट मैसेज का मसौदा तैयार करना: इनमें से किसी को भी फ्रंटियर मॉडल की ज़रूरत नहीं, और इनमें से अधिकांश ऐसे कोड को छूता है जिसे आप कहीं भेजना ही नहीं चाहेंगे। कोई एक पेचीदा आर्किटेक्चरल refactor शायद बड़े इंजन की माँग करे। boilerplate के लिए फ्रंटियर क्लाउड की ऊँची कीमत चुकाना, या कठिन काम को हद से छोटे मॉडल से बाँध देना, यही वह कर है जो आप इस चुनाव को सब-या-कुछ-नहीं मानने की एवज़ में चुकाते हैं।

AgentsRoom में, लोकल या क्लाउड एक डायल है, स्विच नहीं

AgentsRoom पहले से ही हर एजेंट को उसका अपना provider और मॉडल देता है। Ollama जोड़ने का मतलब है कि अब हर एजेंट लोकल-से-क्लाउड डायल पर कहीं भी बैठ सकता है, और आप इसे हर एजेंट के हिसाब से, हर काम के हिसाब से सेट करते हैं।

डायल सचमुच मॉडल id ही है। qwen3-coder:30b टाइप करें और एजेंट Qwen को Ollama के ज़रिए लोकल, आपके हार्डवेयर पर, मुफ़्त में चलाता है। एक :cloud suffix जोड़ें, glm-4.6:cloud, और वही एजेंट उस मॉडल को इसके बजाय आपकी Ollama Cloud सदस्यता के ज़रिए चलाता है। एक suffix सेटअप में और कुछ भी छुए बिना एक एजेंट को आपके GPU से किसी होस्टेड GPU पर सरका देता है।

चूँकि AgentsRoom provider बदलने के दौरान आपका context बनाए रखता है, इसलिए डायल बातचीत के बीच में भी हिलता है। किसी एजेंट को एक लोकल मॉडल पर शुरू करें, उसे काम का यांत्रिक हिस्सा पीसने दें, फिर उस एक कदम के लिए उसे किसी क्लाउड मॉडल पर स्विच करें जिसे गहरी रीज़निंग चाहिए। AgentsRoom छुई गई फ़ाइलों, प्रगति और सेशन गतिविधि का एक handoff सारांश बनाता है, ताकि क्लाउड मॉडल ठीक वहीं से आगे बढ़े जहाँ लोकल मॉडल रुका था। कठिन हिस्सा पूरा होने पर इसे वापस पलट दें।

इसे कैसे इस्तेमाल करें

अगर आप पहले से AgentsRoom चलाते हैं, तो सीखने के लिए लगभग कुछ भी नया नहीं है:

ollama.com से Ollama इंस्टॉल करें और एक मॉडल pull करें: ollama pull qwen3-coder:30b। कोड के लिए एक Qwen Coder मॉडल एक मज़बूत डिफ़ॉल्ट है। छोटी मशीनें 7B को आराम से चलाती हैं, और एक 24GB GPU बड़े context window के साथ 30B को सँभाल लेता है।
AgentsRoom सेटिंग्स में, Ollama को provider के रूप में चुनें, या तो अपने डिफ़ॉल्ट के तौर पर या किसी एक एजेंट पर।
एक एजेंट बनाएँ, उसे एक भूमिका दें, और मॉडल फ़ील्ड में Ollama मॉडल id टाइप करें। इसे लोकल चलाने के लिए qwen3-coder:30b इस्तेमाल करें, या Ollama Cloud के ज़रिए चलाने के लिए :cloud जोड़ें।
एक prompt भेजें। AgentsRoom आपके प्रोजेक्ट फ़ोल्डर में असली ollama run प्रक्रिया चालू करता है और आउटपुट को लाइव स्ट्रीम करता है, ठीक उसी तरह जैसे वह हर दूसरे provider को चलाता है।

मैदान से एक सुझाव: Ollama नए मॉडलों को डिफ़ॉल्ट रूप से एक छोटी context window देता है। एजेंटिक काम के लिए, इसे बढ़ाएँ ताकि एजेंट आपके रिपॉज़िटरी का एक असली टुकड़ा नज़र में रख सके, न कि सिर्फ़ पिछले कुछ संदेश।

एक मुफ़्त, निजी झुंड की अर्थव्यवस्था

AgentsRoom को एजेंट्स को समानांतर में चलाने के लिए बनाया गया है: उनका एक पूरा बोर्ड, हर एक अपने काम पर, हर एक अपने status dot के साथ। क्लाउड providers पर वह समानांतरता एक चलते मीटर के साथ आती है, क्योंकि एक साथ काम करते छह एजेंट का मतलब है छह टोकन बिल जो एक साथ चढ़ते हैं। लोकल Ollama मॉडलों पर एक टोकन की सीमांत लागत शून्य होती है। एक झुंड चालू करें, उसे पूरी दोपहर चलने दें, और एकमात्र बिल बिजली का होता है।

समानांतर में काम करते छह कोडिंग एजेंट की चलती लागत की तुलना करता एक बार चार्ट। क्लाउड बेड़ा एक ऊँची बार है क्योंकि छहों एजेंट में से हर एक टोकन के हिसाब से मीटर होता है। Ollama मॉडलों पर लोकल बेड़ा बेसलाइन के पास एक नन्ही-सी बार है क्योंकि लोकल inference का कोई प्रति-टोकन बिल नहीं होता, इसलिए एकमात्र लागत बिजली है।

इससे बदल जाता है कि समानांतरता किस काम के लिए है। जब हर एजेंट मीटर होता है, तो आप उन्हें राशन देते हैं। जब वे मुफ़्त होते हैं, तो आप उपयोगी तरीके से उदार होना गवारा कर सकते हैं: एक लोकल एजेंट जो lint बहाव पर नज़र रखता है, एक जो changelog को अद्यतन रखता है, एक जो हर नए फ़ंक्शन के लिए टेस्ट का मसौदा तैयार करता है, सब पृष्ठभूमि में शून्य सीमांत लागत पर चलते हुए, जबकि आपका मीटर होने वाला क्लाउड एजेंट उसी काम के लिए आरक्षित रहता है जिसे वाकई उसकी ज़रूरत है। अगर एक साथ कई एजेंट चलाना आपके लिए नया है, तो हमने इस तरीके के बारे में कोडिंग एजेंट्स को समानांतर में चलाना में लिखा है।

एक ऐसी निजता जिसके लिए आपको बहस नहीं करनी पड़ती

बहुत-सी टीमों के लिए निर्णायक कारक लागत नहीं है, बल्कि यह है कि कोड कहाँ जाता है। विनियमित उद्योग, NDA के तहत क्लाइंट का काम, एक आंतरिक कोडबेस जिसे कानूनी विभाग किसी तीसरे-पक्ष के API के पास नहीं जाने देगा: लोकल inference सवाल पूछे जाने से पहले ही उसका जवाब दे देता है, क्योंकि मॉडल मशीन पर चलता है और prompt कभी नेटवर्क पार नहीं करता। कुछ भी समीक्षा करने को नहीं, कोई data-processing समझौता नहीं, कोई data-residency धारा नहीं।

AgentsRoom इस रुख़ को आद्योपांत साधता है। लोकल मॉडल आपके कोड को मशीन पर बनाए रखते हैं, और आपके डेस्कटॉप तथा आपके फ़ोन के बीच AgentsRoom का अपना sync एंड-टू-एंड एन्क्रिप्टेड होता है, ताकि कमरे के दूसरे छोर से बेड़े की निगरानी करना उस निजता को कभी न मिटाए जो लोकल मॉडल ने अभी-अभी आपको दिलाई है। अगर आप इसे अनुपालन की वजह से पढ़ रहे हैं, तो असल बात यही जोड़ है, और यह vibe coding और GDPR अनुपालन पर हमारे नोट में दिए तरीकों के साथ अच्छी तरह मेल खाता है।

फिर हाइब्रिड तरीका अपने-आप निकल आता है: निजी और बल्क को एक लोकल मॉडल की ओर राह दें, केवल कठिन, ग़ैर-संवेदनशील रीज़निंग को ही क्लाउड तक escalate करें, और handoff को डायल सँभालने दें। आपको फ्रंटियर ताक़त वहाँ मिलती है जहाँ वह अपनी कीमत वसूल करती है, और लोकल निजता बाकी हर जगह।

यह क्यों मायने रखता है

AgentsRoom कभी किसी एक मॉडल या एक वेंडर का क्लाइंट नहीं रहा। यह हर काम के लिए सही एजेंट को चलाने का एक कॉकपिट है, साथ-साथ, एक ही जोड़ी आँखों के नीचे। Ollama उस वादे को एक ख़ास तरीके से चौड़ा करता है: यह जोड़ने के लिए एक और क्लाउड एजेंट नहीं है, यह पूरा ओपन-वेट्स इकोसिस्टम है, आपकी शर्तों पर, शून्य कीमत पर और डिफ़ॉल्ट रूप से निजी।

बहुतों के लिए लोकल, कुछ के लिए क्लाउड, और किसी भी एजेंट को दोनों के बीच सरकाने के लिए एक डायल। AgentsRoom डाउनलोड करें, Ollama कनेक्ट करें, और ओपन-सोर्स मॉडलों से भरी एक room को काम पर लगाएँ। पूरा provider संगतता मैट्रिक्स देखें, या multi-provider समर्थन के बारे में और पढ़ें कि बातचीत के बीच में स्विच करना आपका context कैसे बरकरार रखता है।