AgentsRoom में अब Ollama का समर्थन: लोकल मॉडल क्लाउड के साथ-साथ चलाएँ
Ollama अब AgentsRoom में एक provider है। Llama, Qwen, Gemma और DeepSeek जैसे लोकल ओपन-सोर्स मॉडल क्लाउड एजेंट्स के साथ-साथ चलाएँ, और हर एजेंट पर लोकल-या-क्लाउड डायल सेट करें, जो बातचीत के बीच में ही बदला जा सकता है।
Ollama अब AgentsRoom में एक समर्थित provider है। आप किसी भी एजेंट को एक लोकल ओपन-सोर्स मॉडल सौंप सकते हैं, उसे Claude, Codex, Grok Build और Mistral Vibe के साथ उसी बोर्ड पर चला सकते हैं, और बातचीत के बीच में ही अपना context खोए बिना स्विच कर सकते हैं। जिन ओपन-वेट मॉडलों को आप पहले से जानते हैं, Llama, Qwen, Gemma, DeepSeek और बाकी, वे अब आपकी room में ड्यूटी पर हाज़िर हैं।
Ollama हमारे जोड़े गए बाकी providers जैसा बिल्कुल नहीं है। यह दाँव लगाने के लिए एक और एजेंट भर नहीं है। यह पूरे ओपन-सोर्स मॉडल कैटलॉग तक एक दरवाज़ा है, जो आपके अपने हार्डवेयर पर चलता है, प्रति टोकन शून्य लागत पर और डिफ़ॉल्ट रूप से निजी।
Ollama क्या है
Ollama एक मुफ़्त, ओपन-सोर्स runtime है जो बड़े भाषा मॉडलों को आपकी अपनी मशीन पर डाउनलोड करके चलाता है। एक कमांड, ollama pull qwen3-coder, मॉडल को ले आती है। ollama run उसे http://localhost:11434 पर एक लोकल endpoint पर सर्व करता है। यह एक OpenAI-संगत API उपलब्ध कराता है, और ठीक इसी वजह से कोडिंग एजेंट बिना किसी कस्टम जोड़-तोड़ के इससे बात कर पाते हैं, और यह macOS, Windows और Linux पर उपलब्ध है।
यह tool calling का भी समर्थन करता है, वही चीज़ जिसकी एक कोडिंग एजेंट को फ़ाइलें एडिट करने और कमांड चलाने के लिए ज़रूरत होती है, न कि सिर्फ़ चैट करने के लिए। मॉडल लाइब्रेरी ओपन वेट्स के दिग्गजों की सूची जैसी पढ़ी जाती है: Llama, Qwen, Gemma, DeepSeek, Mistral, Phi और भी बहुत कुछ, ऐसे आकारों में जो एक लैपटॉप से लेकर वर्कस्टेशन GPU तक हर चीज़ के लिए उपयुक्त हैं।
दो तथ्य इस लेख के बाकी हिस्से को थामे रखते हैं। मॉडल आपकी मशीन पर चलते हैं, इसलिए आप जो कुछ भी टाइप करते हैं वह नेटवर्क पार नहीं करता। और लोकल inference का कोई प्रति-टोकन बिल नहीं होता। नीचे जो कुछ भी है वह इन्हीं दो का परिणाम है।
लोकल-बनाम-क्लाउड का वह चुनाव जिसे हर कोई स्वीकार कर लेता है
अब तक फ़ैसला दो में से एक होता था। पूरा दाँव क्लाउड पर लगाएँ तो आपको फ्रंटियर रीज़निंग मिलती है, पर हर prompt और हर फ़ाइल जिसे आप छूते हैं, किसी तीसरे-पक्ष के API को भेजी जाती है और टोकन के हिसाब से मीटर होती है। पूरा दाँव लोकल पर लगाएँ तो आपको निजता और शून्य लागत मिलती है, पर उन समस्याओं पर सबसे मज़बूत मॉडल छोड़ देते हैं जिन्हें वाकई उनकी ज़रूरत होती है। ज़्यादातर टीमें एक ही लेन चुनती हैं और उसी में बनी रहती हैं।
यह दोतरफ़ा चुनाव एक झूठा चुनाव है, क्योंकि एक कोडबेस सिर्फ़ एक ही किस्म का काम नहीं होता। चालीस फ़ाइलों में किसी symbol का नाम बदलना, boilerplate टेस्ट लिखना, किसी diff का सारांश देना, कमिट मैसेज का मसौदा तैयार करना: इनमें से किसी को भी फ्रंटियर मॉडल की ज़रूरत नहीं, और इनमें से अधिकांश ऐसे कोड को छूता है जिसे आप कहीं भेजना ही नहीं चाहेंगे। कोई एक पेचीदा आर्किटेक्चरल refactor शायद बड़े इंजन की माँग करे। boilerplate के लिए फ्रंटियर क्लाउड की ऊँची कीमत चुकाना, या कठिन काम को हद से छोटे मॉडल से बाँध देना, यही वह कर है जो आप इस चुनाव को सब-या-कुछ-नहीं मानने की एवज़ में चुकाते हैं।
AgentsRoom में, लोकल या क्लाउड एक डायल है, स्विच नहीं
AgentsRoom पहले से ही हर एजेंट को उसका अपना provider और मॉडल देता है। Ollama जोड़ने का मतलब है कि अब हर एजेंट लोकल-से-क्लाउड डायल पर कहीं भी बैठ सकता है, और आप इसे हर एजेंट के हिसाब से, हर काम के हिसाब से सेट करते हैं।
डायल सचमुच मॉडल id ही है। qwen3-coder:30b टाइप करें और एजेंट Qwen को Ollama के ज़रिए लोकल, आपके हार्डवेयर पर, मुफ़्त में चलाता है। एक :cloud suffix जोड़ें, glm-4.6:cloud, और वही एजेंट उस मॉडल को इसके बजाय आपकी Ollama Cloud सदस्यता के ज़रिए चलाता है। एक suffix सेटअप में और कुछ भी छुए बिना एक एजेंट को आपके GPU से किसी होस्टेड GPU पर सरका देता है।
चूँकि AgentsRoom provider बदलने के दौरान आपका context बनाए रखता है, इसलिए डायल बातचीत के बीच में भी हिलता है। किसी एजेंट को एक लोकल मॉडल पर शुरू करें, उसे काम का यांत्रिक हिस्सा पीसने दें, फिर उस एक कदम के लिए उसे किसी क्लाउड मॉडल पर स्विच करें जिसे गहरी रीज़निंग चाहिए। AgentsRoom छुई गई फ़ाइलों, प्रगति और सेशन गतिविधि का एक handoff सारांश बनाता है, ताकि क्लाउड मॉडल ठीक वहीं से आगे बढ़े जहाँ लोकल मॉडल रुका था। कठिन हिस्सा पूरा होने पर इसे वापस पलट दें।
इसे कैसे इस्तेमाल करें
अगर आप पहले से AgentsRoom चलाते हैं, तो सीखने के लिए लगभग कुछ भी नया नहीं है:
ollama.comसे Ollama इंस्टॉल करें और एक मॉडल pull करें:ollama pull qwen3-coder:30b। कोड के लिए एक Qwen Coder मॉडल एक मज़बूत डिफ़ॉल्ट है। छोटी मशीनें 7B को आराम से चलाती हैं, और एक 24GB GPU बड़े context window के साथ 30B को सँभाल लेता है।- AgentsRoom सेटिंग्स में, Ollama को provider के रूप में चुनें, या तो अपने डिफ़ॉल्ट के तौर पर या किसी एक एजेंट पर।
- एक एजेंट बनाएँ, उसे एक भूमिका दें, और मॉडल फ़ील्ड में Ollama मॉडल id टाइप करें। इसे लोकल चलाने के लिए
qwen3-coder:30bइस्तेमाल करें, या Ollama Cloud के ज़रिए चलाने के लिए:cloudजोड़ें। - एक prompt भेजें। AgentsRoom आपके प्रोजेक्ट फ़ोल्डर में असली
ollama runप्रक्रिया चालू करता है और आउटपुट को लाइव स्ट्रीम करता है, ठीक उसी तरह जैसे वह हर दूसरे provider को चलाता है।
मैदान से एक सुझाव: Ollama नए मॉडलों को डिफ़ॉल्ट रूप से एक छोटी context window देता है। एजेंटिक काम के लिए, इसे बढ़ाएँ ताकि एजेंट आपके रिपॉज़िटरी का एक असली टुकड़ा नज़र में रख सके, न कि सिर्फ़ पिछले कुछ संदेश।
एक मुफ़्त, निजी झुंड की अर्थव्यवस्था
AgentsRoom को एजेंट्स को समानांतर में चलाने के लिए बनाया गया है: उनका एक पूरा बोर्ड, हर एक अपने काम पर, हर एक अपने status dot के साथ। क्लाउड providers पर वह समानांतरता एक चलते मीटर के साथ आती है, क्योंकि एक साथ काम करते छह एजेंट का मतलब है छह टोकन बिल जो एक साथ चढ़ते हैं। लोकल Ollama मॉडलों पर एक टोकन की सीमांत लागत शून्य होती है। एक झुंड चालू करें, उसे पूरी दोपहर चलने दें, और एकमात्र बिल बिजली का होता है।
इससे बदल जाता है कि समानांतरता किस काम के लिए है। जब हर एजेंट मीटर होता है, तो आप उन्हें राशन देते हैं। जब वे मुफ़्त होते हैं, तो आप उपयोगी तरीके से उदार होना गवारा कर सकते हैं: एक लोकल एजेंट जो lint बहाव पर नज़र रखता है, एक जो changelog को अद्यतन रखता है, एक जो हर नए फ़ंक्शन के लिए टेस्ट का मसौदा तैयार करता है, सब पृष्ठभूमि में शून्य सीमांत लागत पर चलते हुए, जबकि आपका मीटर होने वाला क्लाउड एजेंट उसी काम के लिए आरक्षित रहता है जिसे वाकई उसकी ज़रूरत है। अगर एक साथ कई एजेंट चलाना आपके लिए नया है, तो हमने इस तरीके के बारे में कोडिंग एजेंट्स को समानांतर में चलाना में लिखा है।
एक ऐसी निजता जिसके लिए आपको बहस नहीं करनी पड़ती
बहुत-सी टीमों के लिए निर्णायक कारक लागत नहीं है, बल्कि यह है कि कोड कहाँ जाता है। विनियमित उद्योग, NDA के तहत क्लाइंट का काम, एक आंतरिक कोडबेस जिसे कानूनी विभाग किसी तीसरे-पक्ष के API के पास नहीं जाने देगा: लोकल inference सवाल पूछे जाने से पहले ही उसका जवाब दे देता है, क्योंकि मॉडल मशीन पर चलता है और prompt कभी नेटवर्क पार नहीं करता। कुछ भी समीक्षा करने को नहीं, कोई data-processing समझौता नहीं, कोई data-residency धारा नहीं।
AgentsRoom इस रुख़ को आद्योपांत साधता है। लोकल मॉडल आपके कोड को मशीन पर बनाए रखते हैं, और आपके डेस्कटॉप तथा आपके फ़ोन के बीच AgentsRoom का अपना sync एंड-टू-एंड एन्क्रिप्टेड होता है, ताकि कमरे के दूसरे छोर से बेड़े की निगरानी करना उस निजता को कभी न मिटाए जो लोकल मॉडल ने अभी-अभी आपको दिलाई है। अगर आप इसे अनुपालन की वजह से पढ़ रहे हैं, तो असल बात यही जोड़ है, और यह vibe coding और GDPR अनुपालन पर हमारे नोट में दिए तरीकों के साथ अच्छी तरह मेल खाता है।
फिर हाइब्रिड तरीका अपने-आप निकल आता है: निजी और बल्क को एक लोकल मॉडल की ओर राह दें, केवल कठिन, ग़ैर-संवेदनशील रीज़निंग को ही क्लाउड तक escalate करें, और handoff को डायल सँभालने दें। आपको फ्रंटियर ताक़त वहाँ मिलती है जहाँ वह अपनी कीमत वसूल करती है, और लोकल निजता बाकी हर जगह।
यह क्यों मायने रखता है
AgentsRoom कभी किसी एक मॉडल या एक वेंडर का क्लाइंट नहीं रहा। यह हर काम के लिए सही एजेंट को चलाने का एक कॉकपिट है, साथ-साथ, एक ही जोड़ी आँखों के नीचे। Ollama उस वादे को एक ख़ास तरीके से चौड़ा करता है: यह जोड़ने के लिए एक और क्लाउड एजेंट नहीं है, यह पूरा ओपन-वेट्स इकोसिस्टम है, आपकी शर्तों पर, शून्य कीमत पर और डिफ़ॉल्ट रूप से निजी।
बहुतों के लिए लोकल, कुछ के लिए क्लाउड, और किसी भी एजेंट को दोनों के बीच सरकाने के लिए एक डायल। AgentsRoom डाउनलोड करें, Ollama कनेक्ट करें, और ओपन-सोर्स मॉडलों से भरी एक room को काम पर लगाएँ। पूरा provider संगतता मैट्रिक्स देखें, या multi-provider समर्थन के बारे में और पढ़ें कि बातचीत के बीच में स्विच करना आपका context कैसे बरकरार रखता है।
AgentsRoom डाउनलोड करें
अपने AI एजेंट्स (Claude, Codex, Antigravity CLI, OpenCode, Aider) को अपने सभी प्रोजेक्ट्स पर एक ही विंडो से चलाएं।
कंपेनियन ऐप: चलते-फिरते अपने एजेंट्स मॉनिटर करें
Claude, Codex, Antigravity CLI या किसी अन्य AI प्रदाता का उपयोग करें।
बग और अनुरोध सीधे अपने सार्वजनिक बैकलॉग में भेजें।
AgentsRoom को कार्य करते देखें।