AgentsRoom obsługuje teraz Ollamę: uruchamiaj lokalne modele obok chmury

Ollama jest teraz dostawcą w AgentsRoom. Uruchamiaj lokalne modele open source, takie jak Llama, Qwen, Gemma i DeepSeek, obok agentów w chmurze i ustaw dla każdego agenta suwak lokalne albo chmura, przełączalny w trakcie rozmowy.

3 lipca 2026

Ollama jest już obsługiwanym dostawcą w AgentsRoom. Możesz przypisać lokalny model open source do dowolnego agenta, uruchomić go na tej samej tablicy co Claude, Codex, Grok Build i Mistral Vibe oraz przełączać się w trakcie rozmowy, nie tracąc kontekstu. Otwarte wagi, które już znasz, Llama, Qwen, Gemma, DeepSeek i reszta, stawiają się teraz do służby w twoim pokoju.

Ollama nie jest do końca taka jak inni dostawcy, których dodaliśmy. To nie kolejny agent, na którego się stawia. To brama do całego katalogu modeli open source, działających na twoim własnym sprzęcie, przy zerowym koszcie za token i prywatnych z założenia.

Czym jest Ollama

Ollama to darmowe środowisko uruchomieniowe o otwartym kodzie źródłowym, które pobiera i uruchamia duże modele językowe na twojej własnej maszynie. Jedno polecenie, ollama pull qwen3-coder, ściąga model. ollama run udostępnia go na lokalnym endpoincie pod adresem http://localhost:11434. Wystawia API zgodne z OpenAI i właśnie dlatego agenci kodujący mogą z nim rozmawiać bez żadnego samodzielnie klejonego kodu pośredniczącego. Działa na macOS, Windows i Linux.

Obsługuje też tool calling, czyli dokładnie to, czego agent kodujący potrzebuje, by edytować pliki i uruchamiać polecenia, a nie tylko rozmawiać. Biblioteka modeli czyta się jak spis najważniejszych otwartych wag: Llama, Qwen, Gemma, DeepSeek, Mistral, Phi i wiele innych, w rozmiarach pasujących do wszystkiego, od laptopa po GPU w stacji roboczej.

Dwa fakty niosą całą resztę tego artykułu. Modele działają na twojej maszynie, więc nic z tego, co wpisujesz, nie opuszcza sieci. A lokalna inferencja nie ma rachunku za token. Wszystko poniżej wynika z tych dwóch rzeczy.

Wybór lokalne kontra chmura, na który wszyscy przystają

Do tej pory decyzja była zerojedynkowa. Stawiasz wszystko na chmurę: rozumowanie z najwyższej półki, ale każdy prompt i każdy plik, którego dotkniesz, trafia do zewnętrznego API i jest liczony za token. Albo stawiasz wszystko na lokalne: prywatność i zerowy koszt, ale rezygnujesz z najsilniejszych modeli przy problemach, które naprawdę ich potrzebują. Większość zespołów wybiera jeden pas i już z niego nie zjeżdża.

Ta zerojedynkowość to fałszywy wybór, bo baza kodu nie jest jednym rodzajem pracy. Zmiana nazwy symbolu w czterdziestu plikach, pisanie odtwórczych testów, streszczenie diffa, redagowanie komunikatu commita: nic z tego nie wymaga modelu z najwyższej półki, a spora część dotyka kodu, którego wolałbyś nigdzie nie wysyłać. Jeden porządnie zakręcony refaktor architektury może za to potrzebować dużego silnika. Płacenie chmurowych stawek z najwyższej półki za hydraulikę albo krępowanie trudnego zadania zbyt małym modelem to podatek, który płacisz, traktując ten wybór jak wszystko albo nic.

W AgentsRoom lokalne czy chmura to suwak, nie przełącznik

AgentsRoom już daje każdemu agentowi własnego dostawcę i własny model. Dodanie Ollamy oznacza, że każdy agent może teraz stanąć w dowolnym miejscu suwaka od lokalnego do chmury, a ty ustawiasz go per agent, per zadanie.

Suwak to dosłownie identyfikator modelu. Wpisz qwen3-coder:30b, a agent uruchomi Qwen lokalnie przez Ollamę, na twoim sprzęcie, za darmo. Dodaj sufiks :cloud, glm-4.6:cloud, a ten sam agent uruchomi ten model przez twoją subskrypcję Ollama Cloud. Jeden sufiks przenosi agenta z twojego GPU na hostowany, nie ruszając niczego innego w konfiguracji.

Ponieważ AgentsRoom zachowuje twój kontekst przy zmianie dostawcy, suwak przesuwa się też w trakcie rozmowy. Uruchom agenta na modelu lokalnym, pozwól mu przemleć mechaniczną część zadania, a potem przełącz go na model w chmurze na ten jeden krok, który wymaga głębszego rozumowania. AgentsRoom buduje podsumowanie przekazania, zmienione pliki, postęp i aktywność sesji, żeby model w chmurze podjął dokładnie tam, gdzie skończył lokalny. Przełącz z powrotem, gdy trudna część będzie za tobą.

Jak z tego korzystać

Jeśli już używasz AgentsRoom, nie masz się prawie niczego nowego do nauczenia:

Zainstaluj Ollamę z ollama.com i pobierz model: ollama pull qwen3-coder:30b. Model Qwen Coder to mocny domyślny wybór do kodu. Skromniejsze maszyny bez trudu uruchomią 7B, a GPU z 24GB poradzi sobie z 30B przy dużym oknie kontekstu.
W ustawieniach AgentsRoom wybierz Ollamę jako dostawcę, domyślnie albo dla pojedynczego agenta.
Utwórz agenta, nadaj mu rolę i w polu modelu wpisz identyfikator modelu Ollamy. Użyj qwen3-coder:30b, żeby uruchomić go lokalnie, albo dodaj :cloud, żeby uruchomić go przez Ollama Cloud.
Wyślij prompt. AgentsRoom uruchamia prawdziwy proces ollama run w folderze twojego projektu i strumieniuje wyjście na żywo, dokładnie tak, jak steruje każdym innym dostawcą.

Rada z pola walki: Ollama domyślnie przydziela nowym modelom małe okno kontekstu. Do pracy agentowej zwiększ je, żeby agent mógł mieć w zasięgu wzroku prawdziwy wycinek twojego repozytorium, a nie tylko ostatnich kilka wiadomości.

Ekonomia darmowego, prywatnego roju

AgentsRoom jest zbudowany do uruchamiania agentów równolegle: cała tablica ich, każdy przy swoim zadaniu, każdy ze swoją kropką statusu. U dostawców chmurowych ta równoległość ma włączony licznik, bo sześciu agentów pracujących naraz to sześć rachunków za tokeny rosnących razem. Na lokalnych modelach Ollamy koszt krańcowy tokena wynosi zero. Odpal rój, pozwól mu działać całe popołudnie, a jedyny rachunek to prąd.

Wykres słupkowy porównujący koszt działania sześciu agentów kodujących pracujących równolegle. Flota w chmurze to wysoki słupek, bo każdy z sześciu agentów jest liczony za token. Flota lokalna na modelach Ollamy to malutki słupek przy linii bazowej, bo lokalna inferencja nie ma rachunku za token, więc jedynym kosztem jest prąd.

To zmienia, po co jest równoległość. Kiedy każdy agent jest liczony, racjonujesz ich. Kiedy są darmowi, możesz sobie pozwolić na hojność w pożyteczny sposób: lokalny agent pilnujący dryfu lintera, drugi utrzymujący changelog na bieżąco, trzeci szkicujący testy do każdej nowej funkcji, wszyscy w tle przy zerowym koszcie krańcowym, podczas gdy twój płatny agent w chmurze pozostaje zarezerwowany do pracy, która naprawdę go potrzebuje. Jeśli uruchamianie wielu agentów naraz jest dla ciebie nowością, opisaliśmy tę zasadę w uruchamianiu agentów kodujących równolegle.

Prywatność, której nie musisz uzasadniać

Dla wielu zespołów czynnikiem rozstrzygającym nie jest koszt, lecz to, dokąd trafia kod. Branże regulowane, praca dla klientów pod NDA, wewnętrzna baza kodu, której dział prawny nie pozwoli zbliżyć do zewnętrznego API: lokalna inferencja odpowiada na pytanie, zanim ono padnie, bo model działa na maszynie, a prompt nigdy nie przekracza sieci. Nie ma czego weryfikować, żadnej umowy powierzenia przetwarzania danych, żadnej klauzuli o miejscu przechowywania danych.

AgentsRoom pasuje do tej postawy od początku do końca. Modele lokalne trzymają twój kod na maszynie, a własna synchronizacja AgentsRoom między twoim komputerem a telefonem jest szyfrowana od końca do końca, więc nadzorowanie floty z drugiego końca pokoju nigdy nie cofa prywatności, którą właśnie dał ci model lokalny. Jeśli to zgodność z przepisami sprowadziła cię tutaj, właśnie o to połączenie chodzi, a dobrze komponuje się ono z praktykami z naszej notatki o vibe codingu i zgodności z RODO.

Wzorzec hybrydowy wynika potem sam z siebie: kieruj to, co prywatne i masowe, do modelu lokalnego, eskaluj do chmury tylko trudne, niewrażliwe rozumowanie, a przekazanie zostaw suwakowi. Dostajesz moc z najwyższej półki tam, gdzie na siebie zarabia, i lokalną prywatność wszędzie indziej.

Dlaczego to ważne

AgentsRoom nigdy nie był klientem jednego modelu ani jednego dostawcy. To kokpit do uruchamiania właściwego agenta do każdego zadania, obok siebie, pod jedną parą oczu. Ollama poszerza tę obietnicę w konkretny sposób: to nie kolejny agent w chmurze do podłączenia, to cały ekosystem otwartych wag, na twoich warunkach, w cenie zera i prywatny z założenia.

Lokalne dla wielu, chmura dla nielicznych, i suwak, by przesunąć dowolnego agenta między nimi. Pobierz AgentsRoom, połącz Ollamę i zaprzęgnij do pracy pokój pełen modeli open source. Zobacz pełną matrycę zgodności dostawców albo przeczytaj więcej o obsłudze wielu dostawców i o tym, jak przełączanie w trakcie rozmowy zachowuje twój kontekst nienaruszony.