AgentsRoom ora supporta Ollama: fai girare modelli locali accanto al cloud

Ollama è ora un provider in AgentsRoom. Fai girare modelli open source locali come Llama, Qwen, Gemma e DeepSeek accanto agli agenti cloud, con una manopola locale o cloud per ogni agente, commutabile a metà conversazione.

3 luglio 2026

Ollama è ora un provider supportato in AgentsRoom. Puoi assegnare un modello open source locale a qualsiasi agente, farlo girare sulla stessa board di Claude, Codex, Grok Build e Mistral Vibe, e commutare a metà conversazione senza perdere il tuo contesto. I modelli a pesi aperti che già conosci, Llama, Qwen, Gemma, DeepSeek e gli altri, si presentano all'appello nella tua room.

Ollama non è proprio come gli altri provider che abbiamo aggiunto. Non è un agente in più su cui scommettere. È una porta d'accesso all'intero catalogo di modelli open source, che gira sul tuo hardware, a costo zero per token e privato per impostazione predefinita.

Cos'è Ollama

Ollama è un runtime libero e open source che scarica ed esegue grandi modelli linguistici sulla tua macchina. Un solo comando, ollama pull qwen3-coder, recupera il modello. ollama run lo serve su un endpoint locale all'indirizzo http://localhost:11434. Espone un'API compatibile con OpenAI, ed è esattamente per questo che gli agenti di codice possono dialogarci senza alcuna colla artigianale, e gira su macOS, Windows e Linux.

Supporta anche il tool calling, ciò di cui un agente di codice ha bisogno per modificare file ed eseguire comandi, non solo per chiacchierare. La libreria di modelli sembra un chi è chi dei pesi aperti: Llama, Qwen, Gemma, DeepSeek, Mistral, Phi e altri ancora, in dimensioni per tutto, dal portatile alla GPU di una workstation.

Due fatti reggono tutto il resto di questo articolo. I modelli girano sulla tua macchina, quindi niente di ciò che digiti attraversa la rete. E l'inferenza locale non ha alcuna bolletta a token. Tutto ciò che segue è una conseguenza di questi due.

La scelta tra locale e cloud che tutti danno per scontata

Fino a oggi la decisione era binaria. Punti tutto sul cloud e ottieni un ragionamento di frontiera, ma ogni prompt e ogni file che tocchi viene spedito a un'API di terze parti e conteggiato a token. Punti tutto sul locale e ottieni privacy e costo zero, ma rinunci ai modelli più potenti proprio sui problemi che ne hanno davvero bisogno. La maggior parte dei team sceglie una corsia e non la lascia più.

Quel binario è un falso dilemma, perché una base di codice non è un unico tipo di lavoro. Rinominare un simbolo in quaranta file, scrivere test ripetitivi, riassumere un diff, redigere un messaggio di commit: niente di tutto ciò richiede un modello di frontiera, e buona parte tocca codice che preferiresti non spedire da nessuna parte. Un refactoring di architettura bello contorto, quello sì, potrebbe chiedere il motore grosso. Pagare prezzi di cloud di frontiera per il lavoro di manovalanza, oppure zavorrare il compito difficile con un modello troppo piccolo, è il pedaggio che paghi trattando la scelta come un tutto o niente.

In AgentsRoom, locale o cloud è una manopola, non un interruttore

AgentsRoom dà già a ogni agente il suo provider e il suo modello. Aggiungere Ollama significa che ora ogni agente può collocarsi in qualsiasi punto della manopola da locale a cloud, e lo regoli tu, per agente, per compito.

La manopola è, letteralmente, l'identificatore del modello. Digita qwen3-coder:30b e l'agente esegue Qwen in locale tramite Ollama, sul tuo hardware, gratis. Aggiungi il suffisso :cloud, glm-4.6:cloud, e lo stesso agente esegue quel modello tramite il tuo abbonamento a Ollama Cloud. Un suffisso sposta un agente dalla tua GPU a una ospitata senza toccare nient'altro nella configurazione.

Poiché AgentsRoom conserva il tuo contesto quando cambi provider, la manopola si sposta anche a metà conversazione. Avvia un agente su un modello locale, lascia che macini la parte meccanica di un compito, poi passalo a un modello cloud per quell'unico passaggio che richiede un ragionamento più profondo. AgentsRoom costruisce un riepilogo di passaggio di consegne con i file toccati, i progressi e l'attività della sessione, così il modello cloud riprende esattamente da dove si era fermato quello locale. Torna indietro una volta finita la parte difficile.

Come si usa

Se già usi AgentsRoom, non c'è quasi nulla di nuovo da imparare:

Installa Ollama da ollama.com e scarica un modello: ollama pull qwen3-coder:30b. Un modello Qwen Coder è un'ottima scelta predefinita per il codice. Le macchine più modeste fanno girare il 7B senza problemi, e una GPU da 24GB gestisce il 30B con un'ampia finestra di contesto.
Nelle impostazioni di AgentsRoom, scegli Ollama come provider, come predefinito o su un singolo agente.
Crea un agente, assegnagli un ruolo e, nel campo del modello, digita l'identificatore del modello Ollama. Usa qwen3-coder:30b per eseguirlo in locale, oppure aggiungi :cloud per eseguirlo tramite Ollama Cloud.
Invia un prompt. AgentsRoom avvia il vero processo ollama run nella cartella del tuo progetto e trasmette l'output in diretta, esattamente come pilota tutti gli altri provider.

Un consiglio dal campo: Ollama assegna per impostazione predefinita una finestra di contesto piccola ai modelli nuovi. Per il lavoro agentico, alzala, così l'agente può tenere sott'occhio una fetta reale del tuo repository, non solo gli ultimi messaggi.

L'economia di uno sciame gratuito e privato

AgentsRoom è pensato per far girare agenti in parallelo: un'intera board, ciascuno sul suo compito, ciascuno con il suo pallino di stato. Sui provider cloud quel parallelismo porta con sé un contatore che gira, perché sei agenti al lavoro contemporaneamente sono sei bollette a token che salgono insieme. Sui modelli Ollama locali il costo marginale di un token è zero. Metti in piedi uno sciame, lascialo girare tutto il pomeriggio, e l'unica bolletta è quella dell'elettricità.

Grafico a barre che confronta il costo di esercizio di sei agenti di codice al lavoro in parallelo. La flotta cloud è una barra alta perché ciascuno dei sei agenti è conteggiato a token. La flotta locale su modelli Ollama è una barra minuscola vicino alla linea di base perché l'inferenza locale non ha alcuna bolletta a token, quindi l'unico costo è l'elettricità.

Questo cambia a cosa serve il parallelismo. Quando ogni agente è conteggiato, li razioni. Quando sono gratuiti, puoi permetterti di essere generoso nel modo utile: un agente locale che sorveglia le derive del lint, un altro che tiene aggiornato il changelog, un altro che redige test per ogni nuova funzione, tutti in esecuzione in sottofondo a costo marginale zero, mentre il tuo agente cloud, quello a pagamento, resta riservato al lavoro che ne ha davvero bisogno. Se far girare molti agenti insieme è una novità per te, abbiamo scritto di questo schema in far girare agenti di codice in parallelo.

Una privacy che non devi giustificare

Per molti team il fattore decisivo non è il costo, è dove finisce il codice. Settori regolamentati, incarichi sotto NDA, una base di codice interna che l'ufficio legale non lascia avvicinare a un'API di terze parti: l'inferenza locale risponde alla domanda ancora prima che venga posta, perché il modello gira sulla macchina e il prompt non attraversa mai la rete. Non c'è nulla da revisionare, nessun accordo sul trattamento dei dati, nessuna clausola sulla residenza dei dati.

AgentsRoom sposa questa postura da un capo all'altro. I modelli locali tengono il tuo codice sulla macchina, e la sincronizzazione di AgentsRoom tra il tuo desktop e il tuo telefono è cifrata end-to-end, così supervisionare la flotta dall'altra parte della stanza non disfa mai la privacy che il modello locale ti ha appena regalato. Se è la conformità il motivo per cui stai leggendo, è proprio lì il punto, e si sposa bene con le pratiche della nostra nota su vibe coding e conformità al GDPR.

Lo schema ibrido ne discende da solo: smista il privato e il voluminoso verso un modello locale, scala verso il cloud solo il ragionamento difficile e non sensibile, e lascia che sia la manopola a gestire il passaggio di consegne. Ottieni potenza di frontiera dove se la guadagna, e privacy locale ovunque altrove.

Perché è importante

AgentsRoom non è mai stato un client per un solo modello né per un solo fornitore. È una cabina di comando per lanciare l'agente giusto su ogni compito, fianco a fianco, sotto un unico paio di occhi. Ollama allarga questa promessa in modo preciso: non è un agente cloud in più da collegare, è l'intero ecosistema dei pesi aperti, alle tue condizioni, a costo zero e privato per impostazione predefinita.

Il locale per i molti, il cloud per i pochi, e una manopola per spostare qualsiasi agente tra i due. Scarica AgentsRoom, collega Ollama e metti al lavoro una room intera di modelli open source. Consulta la matrice completa di compatibilità dei provider, oppure leggi di più sul supporto multi-provider e su come il cambio a metà conversazione mantiene intatto il tuo contesto.