AgentsRoom unterstützt jetzt Ollama: Lokale Modelle direkt neben der Cloud

Ollama ist ab sofort ein Anbieter in AgentsRoom. Lassen Sie lokale Open-Source-Modelle wie Llama, Qwen, Gemma und DeepSeek direkt neben Cloud-Agenten laufen und stellen Sie für jeden Agenten einen Regler zwischen lokal und Cloud ein, umschaltbar mitten im Gespräch.

3. Juli 2026

Ollama ist ab sofort ein unterstützter Anbieter in AgentsRoom. Sie können jedem Agenten ein lokales Open-Source-Modell zuweisen, es auf demselben Board wie Claude, Codex, Grok Build und Mistral Vibe laufen lassen und mitten im Gespräch wechseln, ohne Ihren Kontext zu verlieren. Die offenen Gewichte, die Sie längst kennen, Llama, Qwen, Gemma, DeepSeek und der Rest, melden sich jetzt in Ihrem Raum zum Dienst.

Ollama ist nicht ganz wie die anderen Anbieter, die wir hinzugefügt haben. Es ist nicht bloß ein weiterer Agent, auf den man setzt. Es ist ein Tor zum gesamten Open-Source-Modellkatalog, der auf Ihrer eigenen Hardware läuft, zu null Kosten pro Token und standardmäßig privat.

Was Ollama ist

Ollama ist eine kostenlose, quelloffene Laufzeitumgebung, die große Sprachmodelle auf Ihre eigene Maschine herunterlädt und dort ausführt. Ein Befehl, ollama pull qwen3-coder, holt das Modell. ollama run stellt es über einen lokalen Endpunkt unter http://localhost:11434 bereit. Es bietet eine OpenAI-kompatible API, und genau deshalb können Coding-Agenten ganz ohne selbstgebauten Klebstoff mit ihm sprechen. Es läuft unter macOS, Windows und Linux.

Es beherrscht auch Tool Calling, also genau das, was ein Coding-Agent braucht, um Dateien zu bearbeiten und Befehle auszuführen, statt nur zu plaudern. Die Modellbibliothek liest sich wie ein Who's Who der offenen Gewichte: Llama, Qwen, Gemma, DeepSeek, Mistral, Phi und viele mehr, in Größen für alles vom Laptop bis zur Workstation-GPU.

Zwei Tatsachen tragen den ganzen Rest dieses Artikels. Die Modelle laufen auf Ihrer Maschine, sodass nichts, was Sie tippen, das Netzwerk verlässt. Und lokale Inferenz hat keine Rechnung pro Token. Alles Weitere folgt aus diesen beiden Punkten.

Die Entscheidung zwischen lokal und Cloud, die alle hinnehmen

Bis jetzt war die Entscheidung binär. Setzen Sie voll auf die Cloud: Spitzen-Reasoning, aber jeder Prompt und jede Datei, die Sie anfassen, wandert an eine fremde API und wird pro Token abgerechnet. Oder setzen Sie voll auf lokal: Privatsphäre und null Kosten, aber Sie verzichten auf die stärksten Modelle genau bei den Problemen, die sie wirklich brauchen. Die meisten Teams wählen eine Spur und bleiben darin.

Dieses Binäre ist ein Scheingegensatz, denn eine Codebasis ist nicht eine einzige Art von Arbeit. Ein Symbol über vierzig Dateien umbenennen, stumpfe Tests schreiben, ein Diff zusammenfassen, eine Commit-Message verfassen: nichts davon verlangt ein Spitzenmodell, und vieles davon berührt Code, den Sie lieber nirgendwohin schicken würden. Ein richtig verzwicktes Architektur-Refactoring braucht vielleicht den großen Motor. Für die Fließbandarbeit Spitzenpreise in der Cloud zu zahlen oder die schwere Aufgabe mit einem zu kleinen Modell zu lähmen, das ist die Steuer, die Sie zahlen, wenn Sie diese Wahl als Alles-oder-nichts behandeln.

In AgentsRoom ist lokal oder Cloud ein Regler, kein Schalter

AgentsRoom gibt jedem Agenten bereits seinen eigenen Anbieter und sein eigenes Modell. Ollama hinzuzufügen bedeutet, dass sich jeder Agent nun irgendwo auf dem Regler von lokal bis Cloud einordnen kann, und Sie stellen ihn pro Agent, pro Aufgabe ein.

Der Regler ist buchstäblich die Modell-ID. Tippen Sie qwen3-coder:30b, und der Agent führt Qwen lokal über Ollama aus, auf Ihrer Hardware, kostenlos. Hängen Sie ein Suffix :cloud an, glm-4.6:cloud, und derselbe Agent führt dieses Modell stattdessen über Ihr Ollama-Cloud-Abo aus. Ein Suffix verschiebt einen Agenten von Ihrer GPU auf eine gehostete, ohne sonst irgendetwas an der Einrichtung anzurühren.

Da AgentsRoom Ihren Kontext über einen Anbieterwechsel hinweg bewahrt, bewegt sich der Regler auch mitten im Gespräch. Starten Sie einen Agenten auf einem lokalen Modell, lassen Sie ihn den mechanischen Teil einer Aufgabe abarbeiten und schalten Sie ihn dann für den einen Schritt, der tieferes Reasoning verlangt, auf ein Cloud-Modell um. AgentsRoom erstellt eine Übergabe-Zusammenfassung, geänderte Dateien, Fortschritt und Sitzungsaktivität, damit das Cloud-Modell genau dort weitermacht, wo das lokale aufgehört hat. Schalten Sie zurück, sobald der schwere Teil erledigt ist.

Wie man es nutzt

Wenn Sie AgentsRoom bereits nutzen, gibt es fast nichts Neues zu lernen:

Installieren Sie Ollama von ollama.com und holen Sie ein Modell: ollama pull qwen3-coder:30b. Ein Qwen-Coder-Modell ist eine starke Standardwahl für Code. Bescheidenere Maschinen lassen das 7B locker laufen, und eine 24GB-GPU bewältigt das 30B mit einem großen Kontextfenster.
Wählen Sie in den AgentsRoom-Einstellungen Ollama als Anbieter, entweder als Standard oder für einen einzelnen Agenten.
Erstellen Sie einen Agenten, geben Sie ihm eine Rolle, und tippen Sie im Modellfeld die Ollama-Modell-ID. Nutzen Sie qwen3-coder:30b, um es lokal auszuführen, oder hängen Sie :cloud an, um es über Ollama Cloud auszuführen.
Schicken Sie einen Prompt ab. AgentsRoom startet den echten ollama run-Prozess in Ihrem Projektordner und streamt die Ausgabe live, genauso wie es jeden anderen Anbieter steuert.

Ein Tipp aus der Praxis: Ollama weist neuen Modellen standardmäßig ein kleines Kontextfenster zu. Für agentische Arbeit vergrößern Sie es, damit der Agent ein echtes Stück Ihres Repositorys im Blick behalten kann und nicht nur die letzten paar Nachrichten.

Die Ökonomie eines kostenlosen, privaten Schwarms

AgentsRoom ist dafür gebaut, Agenten parallel laufen zu lassen: ein ganzes Board davon, jeder an seiner eigenen Aufgabe, jeder mit seinem Statuspunkt. Bei Cloud-Anbietern kommt diese Parallelität mit einem laufenden Zähler, denn sechs Agenten, die gleichzeitig arbeiten, sind sechs Token-Rechnungen, die zusammen klettern. Bei lokalen Ollama-Modellen sind die Grenzkosten eines Tokens null. Starten Sie einen Schwarm, lassen Sie ihn den ganzen Nachmittag laufen, und die einzige Rechnung ist die für den Strom.

Balkendiagramm, das die laufenden Kosten von sechs parallel arbeitenden Coding-Agenten vergleicht. Die Cloud-Flotte ist ein hoher Balken, weil jeder der sechs Agenten pro Token abgerechnet wird. Die lokale Flotte auf Ollama-Modellen ist ein winziger Balken nahe der Grundlinie, weil lokale Inferenz keine Rechnung pro Token hat, sodass die einzigen Kosten der Strom sind.

Das verändert, wozu Parallelität da ist. Wenn jeder Agent abgerechnet wird, rationieren Sie sie. Wenn sie kostenlos sind, können Sie es sich leisten, auf die nützliche Art großzügig zu sein: ein lokaler Agent, der auf Lint-Abweichungen achtet, einer, der das Changelog aktuell hält, einer, der für jede neue Funktion Tests entwirft, alle im Hintergrund zu null Grenzkosten, während Ihr abgerechneter Cloud-Agent für die Arbeit reserviert bleibt, die sie wirklich braucht. Falls es neu für Sie ist, viele Agenten gleichzeitig laufen zu lassen: Wir haben das Prinzip in Coding-Agenten parallel laufen lassen beschrieben.

Privatsphäre, für die Sie nicht argumentieren müssen

Für viele Teams ist der ausschlaggebende Faktor nicht der Preis, sondern der Ort, an den der Code geht. Regulierte Branchen, Kundenarbeit unter NDA, eine interne Codebasis, die die Rechtsabteilung nicht in die Nähe einer fremden API lässt: lokale Inferenz beantwortet die Frage, bevor sie gestellt wird, denn das Modell läuft auf der Maschine und der Prompt überquert nie das Netzwerk. Es gibt nichts zu prüfen, keinen Auftragsverarbeitungsvertrag, keine Klausel zum Datenstandort.

AgentsRoom passt durchgängig zu dieser Haltung. Lokale Modelle halten Ihren Code auf der Maschine, und AgentsRooms eigene Synchronisation zwischen Ihrem Desktop und Ihrem Telefon ist Ende-zu-Ende-verschlüsselt, sodass die Flotte vom anderen Ende des Raums zu überwachen nie die Privatsphäre aufhebt, die Ihnen das lokale Modell gerade verschafft hat. Falls Compliance der Grund ist, warum Sie das lesen, ist genau diese Kombination der Punkt, und sie passt gut zu den Praktiken in unserem Beitrag über Vibe Coding und DSGVO-Konformität.

Das hybride Muster ergibt sich dann von selbst: leiten Sie das Private und die Masse an ein lokales Modell, eskalieren Sie nur das schwierige, nicht sensible Reasoning in die Cloud und lassen Sie den Regler die Übergabe erledigen. Sie bekommen Spitzenleistung dort, wo sie sich rechnet, und lokale Privatsphäre überall sonst.

Warum es wichtig ist

AgentsRoom war nie ein Client für ein einzelnes Modell oder einen einzelnen Anbieter. Es ist ein Cockpit, um für jede Aufgabe den richtigen Agenten laufen zu lassen, Seite an Seite, unter einem einzigen Paar Augen. Ollama weitet dieses Versprechen auf eine bestimmte Weise: es ist nicht ein weiterer Cloud-Agent zum Anstöpseln, es ist das gesamte Open-Weights-Ökosystem, zu Ihren Bedingungen, zum Preis von null und standardmäßig privat.

Lokal für die vielen, Cloud für die wenigen, und ein Regler, um jeden Agenten zwischen beiden zu verschieben. Laden Sie AgentsRoom herunter, verbinden Sie Ollama und setzen Sie einen Raum voller Open-Source-Modelle an die Arbeit. Sehen Sie sich die vollständige Kompatibilitätsmatrix der Anbieter an oder lesen Sie mehr über Multi-Provider-Unterstützung und wie das Umschalten mitten im Gespräch Ihren Kontext intakt hält.