AgentsRoom supporte maintenant Ollama : vos modèles locaux à côté du cloud

Ollama devient un fournisseur dans AgentsRoom. Faites tourner des modèles open source locaux comme Llama, Qwen, Gemma et DeepSeek à côté des agents cloud, avec un curseur local ou cloud par agent, basculable en cours de conversation.

3 juillet 2026

Ollama est désormais un fournisseur supporté dans AgentsRoom. Vous pouvez assigner un modèle open source local à n'importe quel agent, le faire tourner sur le même tableau de bord que Claude, Codex, Grok Build et Mistral Vibe, et basculer en cours de conversation sans perdre votre contexte. Les modèles à poids ouverts que vous connaissez déjà, Llama, Qwen, Gemma, DeepSeek et les autres, rejoignent votre room.

Ollama n'est pas tout à fait comme les autres fournisseurs que nous avons ajoutés. Ce n'est pas un agent de plus sur lequel parier. C'est une porte d'entrée vers tout le catalogue de modèles open source, qui tourne sur votre propre matériel, à coût nul par token et privé par défaut.

Ce qu'est Ollama

Ollama est un runtime libre et open source qui télécharge et exécute des grands modèles de langage sur votre propre machine. Une commande, ollama pull qwen3-coder, récupère le modèle. ollama run le sert sur un endpoint local à l'adresse http://localhost:11434. Il expose une API compatible OpenAI, et c'est précisément pour ça que les agents de code peuvent lui parler sans la moindre glu maison. Il tourne sur macOS, Windows et Linux.

Il gère aussi le tool calling, ce dont un agent de code a besoin pour modifier des fichiers et lancer des commandes, pas seulement discuter. La bibliothèque de modèles ressemble à un who's-who des poids ouverts : Llama, Qwen, Gemma, DeepSeek, Mistral, Phi et bien d'autres, à des tailles qui vont du laptop au GPU de station de travail.

Deux faits portent tout le reste de cet article. Les modèles tournent sur votre machine, donc rien de ce que vous tapez ne quitte le réseau. Et l'inférence locale n'a pas de facture au token. Tout ce qui suit découle de ces deux points.

Le choix local ou cloud que tout le monde accepte

Jusqu'ici, la décision était binaire. Vous misiez tout sur le cloud : raisonnement de pointe, mais chaque prompt et chaque fichier que vous touchez part vers une API tierce et se compte au token. Ou vous misiez tout sur le local : confidentialité et coût nul, mais vous renonciez aux modèles les plus forts sur les problèmes qui en ont vraiment besoin. La plupart des équipes choisissent une voie et n'en bougent plus.

Ce binaire est un faux choix, parce qu'une base de code n'est pas un seul type de travail. Renommer un symbole dans quarante fichiers, écrire des tests répétitifs, résumer un diff, rédiger un message de commit : rien de tout ça n'exige un modèle de pointe, et une grande partie touche du code que vous préféreriez ne pas envoyer ailleurs. Un refactoring d'architecture bien tordu, lui, aura peut-être besoin du gros moteur. Payer le prix fort du cloud pour la plomberie, ou brider la tâche difficile avec un modèle trop petit, c'est la taxe que vous payez à traiter ce choix comme du tout ou rien.

Dans AgentsRoom, local ou cloud est un curseur, pas un interrupteur

AgentsRoom donne déjà à chaque agent son propre fournisseur et son propre modèle. Ajouter Ollama, c'est permettre à chaque agent de se placer n'importe où sur le curseur local vers cloud, et vous le réglez par agent, par tâche.

Le curseur, c'est littéralement l'identifiant du modèle. Tapez qwen3-coder:30b et l'agent exécute Qwen en local via Ollama, sur votre matériel, gratuitement. Ajoutez un suffixe :cloud, glm-4.6:cloud, et le même agent exécute ce modèle via votre abonnement Ollama Cloud à la place. Un suffixe déplace un agent de votre GPU vers un GPU hébergé sans toucher à rien d'autre dans la configuration.

Comme AgentsRoom conserve votre contexte lors d'un changement de fournisseur, le curseur bouge aussi en cours de conversation. Lancez un agent sur un modèle local, laissez-le avaler la partie mécanique d'une tâche, puis basculez-le sur un modèle cloud pour l'unique étape qui demande un raisonnement plus profond. AgentsRoom construit un résumé de passation, fichiers modifiés, progression et activité de session, pour que le modèle cloud reprenne exactement là où le local s'est arrêté. Revenez en arrière une fois la partie difficile terminée.

Comment l'utiliser

Si vous utilisez déjà AgentsRoom, il n'y a presque rien de nouveau à apprendre :

Installez Ollama depuis ollama.com et récupérez un modèle : ollama pull qwen3-coder:30b. Un modèle Qwen Coder est un excellent choix par défaut pour le code. Les machines modestes font tourner le 7B sans souci, et un GPU de 24 Go gère le 30B avec une grande fenêtre de contexte.
Dans les réglages d'AgentsRoom, choisissez Ollama comme fournisseur, par défaut ou sur un seul agent.
Créez un agent, donnez-lui un rôle, et dans le champ modèle tapez l'identifiant du modèle Ollama. Utilisez qwen3-coder:30b pour l'exécuter en local, ou ajoutez :cloud pour l'exécuter via Ollama Cloud.
Envoyez un prompt. AgentsRoom lance le vrai processus ollama run dans votre dossier de projet et diffuse la sortie en direct, exactement comme il pilote tous les autres fournisseurs.

Un conseil de terrain : Ollama attribue par défaut une petite fenêtre de contexte aux nouveaux modèles. Pour du travail agentique, augmentez-la, pour que l'agent puisse garder en vue une vraie tranche de votre dépôt, pas seulement les derniers messages.

L'économie d'un essaim gratuit et privé

AgentsRoom est conçu pour faire tourner des agents en parallèle : un tableau entier, chacun sur sa tâche, chacun avec son point de statut. Sur les fournisseurs cloud, ce parallélisme a un compteur qui tourne, parce que six agents au travail en même temps, ce sont six factures au token qui grimpent ensemble. Sur des modèles Ollama locaux, le coût marginal d'un token est nul. Lancez un essaim, laissez-le tourner tout l'après-midi, et la seule facture est celle de l'électricité.

Diagramme en barres comparant le coût de fonctionnement de six agents de code en parallèle. La flotte cloud est une grande barre parce que chacun des six agents est facturé au token. La flotte locale sur des modèles Ollama est une toute petite barre près de la ligne de base, parce que l'inférence locale n'a pas de facture au token, le seul coût étant l'électricité.

Ça change ce à quoi sert le parallélisme. Quand chaque agent est facturé, vous les rationnez. Quand ils sont gratuits, vous pouvez vous permettre d'être généreux de la bonne façon : un agent local qui surveille les dérives de lint, un autre qui tient le changelog à jour, un autre qui écrit des tests pour chaque nouvelle fonction, tous en tâche de fond à coût marginal nul, pendant que votre agent cloud facturé reste réservé au travail qui en a vraiment besoin. Si faire tourner beaucoup d'agents à la fois est nouveau pour vous, nous avons décrit le principe dans faire tourner des agents de code en parallèle.

Une confidentialité que vous n'avez pas à justifier

Pour beaucoup d'équipes, le facteur décisif n'est pas le coût, c'est l'endroit où va le code. Secteurs régulés, prestations sous NDA, base de code interne que le juridique refuse d'approcher d'une API tierce : l'inférence locale répond à la question avant même qu'elle soit posée, parce que le modèle tourne sur la machine et que le prompt ne traverse jamais le réseau. Rien à faire valider, pas d'accord de traitement de données, pas de clause de résidence des données.

AgentsRoom épouse cette posture de bout en bout. Les modèles locaux gardent votre code sur la machine, et la synchronisation d'AgentsRoom entre votre desktop et votre téléphone est chiffrée de bout en bout, si bien que superviser la flotte depuis l'autre bout de la pièce ne défait jamais la confidentialité que le modèle local vient de vous offrir. Si c'est la conformité qui vous amène ici, c'est exactement là que réside l'intérêt, et cela se marie bien avec les pratiques de notre article sur le vibe coding et la conformité RGPD.

Le modèle hybride en découle tout seul : aiguillez le privé et le volume vers un modèle local, n'escaladez vers le cloud que le raisonnement difficile et non sensible, et laissez le curseur gérer la passation. Vous obtenez la puissance de pointe là où elle se justifie, et la confidentialité locale partout ailleurs.

Pourquoi c'est important

AgentsRoom n'a jamais été un client pour un seul modèle ni un seul éditeur. C'est un cockpit pour lancer le bon agent sur chaque tâche, côte à côte, sous une seule paire d'yeux. Ollama élargit cette promesse d'une manière précise : ce n'est pas un agent cloud de plus à brancher, c'est tout l'écosystème des poids ouverts, à vos conditions, à coût nul et privé par défaut.

Le local pour le nombre, le cloud pour l'exception, et un curseur pour déplacer n'importe quel agent entre les deux. Téléchargez AgentsRoom, connectez Ollama et mettez au travail une room entière de modèles open source. Consultez la matrice de compatibilité des fournisseurs, ou lisez-en plus sur le support multi-fournisseur et la façon dont le changement en cours de conversation préserve votre contexte.