O AgentsRoom agora suporta Ollama: rode modelos locais ao lado da nuvem

O Ollama agora é um provedor no AgentsRoom. Rode modelos open source locais como Llama, Qwen, Gemma e DeepSeek ao lado dos agentes na nuvem, com um controle local ou nuvem por agente, alternável no meio da conversa.

3 de julho de 2026

O Ollama é agora um provedor suportado no AgentsRoom. Você pode atribuir um modelo open source local a qualquer agente, rodá-lo no mesmo painel que Claude, Codex, Grok Build e Mistral Vibe, e alternar no meio da conversa sem perder o seu contexto. Os modelos de pesos abertos que você já conhece, Llama, Qwen, Gemma, DeepSeek e companhia, entram em serviço na sua room.

O Ollama não é bem como os outros provedores que adicionamos. Não é mais um agente no qual apostar. É uma porta de entrada para todo o catálogo de modelos open source, rodando no seu próprio hardware, a custo zero por token e privado por padrão.

O que é o Ollama

O Ollama é um runtime livre e open source que baixa e executa grandes modelos de linguagem na sua própria máquina. Um único comando, ollama pull qwen3-coder, busca o modelo. ollama run o serve em um endpoint local em http://localhost:11434. Ele expõe uma API compatível com OpenAI, que é justamente por isso que os agentes de código conseguem conversar com ele sem nenhuma cola caseira, e roda em macOS, Windows e Linux.

Ele também suporta tool calling, aquilo de que um agente de código precisa para editar arquivos e rodar comandos, não só bater papo. A biblioteca de modelos parece um quem é quem dos pesos abertos: Llama, Qwen, Gemma, DeepSeek, Mistral, Phi e mais, em tamanhos para tudo, do notebook à GPU de uma estação de trabalho.

Dois fatos sustentam o resto deste artigo. Os modelos rodam na sua máquina, então nada do que você digita atravessa a rede. E a inferência local não tem conta por token. Tudo o que vem a seguir é consequência desses dois.

A escolha entre local e nuvem que todo mundo aceita

Até agora a decisão era binária. Você aposta tudo na nuvem e ganha raciocínio de ponta, mas cada prompt e cada arquivo que você toca é enviado para uma API de terceiros e medido por token. Você aposta tudo no local e ganha privacidade e custo zero, mas abre mão dos modelos mais fortes nos problemas que de fato precisam deles. A maioria das equipes escolhe uma faixa e não sai dela.

Esse binário é um falso dilema, porque uma base de código não é um único tipo de trabalho. Renomear um símbolo em quarenta arquivos, escrever testes repetitivos, resumir um diff, redigir uma mensagem de commit: nada disso exige um modelo de ponta, e boa parte toca código que você preferiria não enviar para lugar nenhum. Um refactor de arquitetura bem cabeludo, esse sim, pode pedir o motor grande. Pagar preços de nuvem de ponta pelo trabalho braçal, ou emperrar a tarefa difícil com um modelo pequeno demais, é o pedágio que você paga por tratar a escolha como tudo ou nada.

No AgentsRoom, local ou nuvem é um controle, não um interruptor

O AgentsRoom já dá a cada agente o seu próprio provedor e o seu próprio modelo. Adicionar o Ollama significa que agora cada agente pode se posicionar em qualquer ponto do controle de local para nuvem, e você ajusta isso por agente, por tarefa.

O controle é, literalmente, o identificador do modelo. Digite qwen3-coder:30b e o agente roda o Qwen localmente através do Ollama, no seu hardware, de graça. Adicione o sufixo :cloud, glm-4.6:cloud, e o mesmo agente passa a rodar aquele modelo através da sua assinatura do Ollama Cloud. Um sufixo move um agente da sua GPU para uma hospedada sem mexer em mais nada na configuração.

Como o AgentsRoom preserva o seu contexto na troca de provedor, o controle também se move no meio da conversa. Comece um agente em um modelo local, deixe-o triturar a parte mecânica de uma tarefa e depois passe-o para um modelo na nuvem para aquele único passo que pede um raciocínio mais profundo. O AgentsRoom monta um resumo de transferência com os arquivos tocados, o progresso e a atividade da sessão, para que o modelo na nuvem retome exatamente de onde o local parou. Volte atrás assim que a parte difícil terminar.

Como usar

Se você já usa o AgentsRoom, quase não há nada de novo para aprender:

Instale o Ollama a partir de ollama.com e baixe um modelo: ollama pull qwen3-coder:30b. Um modelo Qwen Coder é uma ótima escolha padrão para código. Máquinas mais modestas rodam o 7B tranquilamente, e uma GPU de 24GB dá conta do 30B com uma janela de contexto ampla.
Nas configurações do AgentsRoom, escolha o Ollama como provedor, seja como padrão ou em um único agente.
Crie um agente, dê a ele um papel e, no campo de modelo, digite o identificador do modelo Ollama. Use qwen3-coder:30b para rodá-lo localmente, ou adicione :cloud para rodá-lo através do Ollama Cloud.
Envie um prompt. O AgentsRoom dispara o processo real ollama run na pasta do seu projeto e transmite a saída ao vivo, do mesmo jeito que conduz todos os outros provedores.

Uma dica de campo: o Ollama atribui por padrão uma janela de contexto pequena aos modelos novos. Para trabalho agêntico, aumente-a, para que o agente consiga manter à vista uma fatia real do seu repositório, não só as últimas mensagens.

A economia de um enxame gratuito e privado

O AgentsRoom foi feito para rodar agentes em paralelo: um painel inteiro deles, cada um na sua tarefa, cada um com o seu ponto de status. Nos provedores de nuvem esse paralelismo vem com um contador rodando, porque seis agentes trabalhando ao mesmo tempo são seis contas por token subindo juntas. Nos modelos Ollama locais, o custo marginal de um token é zero. Suba um enxame, deixe-o rodar a tarde toda, e a única conta é a da eletricidade.

Gráfico de barras comparando o custo de operação de seis agentes de código trabalhando em paralelo. A frota na nuvem é uma barra alta porque cada um dos seis agentes é medido por token. A frota local sobre modelos Ollama é uma barra minúscula perto da linha de base porque a inferência local não tem conta por token, então o único custo é a eletricidade.

Isso muda para que serve o paralelismo. Quando cada agente é medido, você os raciona. Quando eles são gratuitos, você pode se dar ao luxo de ser generoso do jeito útil: um agente local que vigia os desvios de lint, outro que mantém o changelog em dia, outro que redige testes para cada função nova, todos rodando em segundo plano a custo marginal zero enquanto o seu agente na nuvem, esse medido, fica reservado para o trabalho que realmente precisa dele. Se rodar muitos agentes ao mesmo tempo é novidade para você, escrevemos sobre esse padrão em rodar agentes de código em paralelo.

Uma privacidade que você não precisa justificar

Para muitas equipes, o fator decisivo não é o custo, é para onde vai o código. Setores regulados, trabalhos sob NDA, uma base de código interna que o jurídico não deixa chegar perto de uma API de terceiros: a inferência local responde à pergunta antes mesmo de ela ser feita, porque o modelo roda na máquina e o prompt nunca atravessa a rede. Não há nada a revisar, nenhum acordo de tratamento de dados, nenhuma cláusula de residência de dados.

O AgentsRoom abraça essa postura de ponta a ponta. Os modelos locais mantêm o seu código na máquina, e a própria sincronização do AgentsRoom entre o seu desktop e o seu celular é criptografada de ponta a ponta, de modo que supervisionar a frota do outro lado da sala nunca desfaz a privacidade que o modelo local acabou de lhe dar. Se é a conformidade que o trouxe até aqui, é exatamente aí que está o ponto, e isso combina bem com as práticas da nossa nota sobre vibe coding e conformidade com a LGPD.

O padrão híbrido surge por conta própria: roteie o privado e o volumoso para um modelo local, escale para a nuvem apenas o raciocínio difícil e não sensível, e deixe o controle cuidar da transferência. Você ganha potência de ponta onde ela justifica o seu custo, e privacidade local em todo o resto.

Por que isso importa

O AgentsRoom nunca foi um cliente para um único modelo nem para um único fornecedor. É uma cabine de comando para lançar o agente certo em cada tarefa, lado a lado, sob um único par de olhos. O Ollama amplia essa promessa de um jeito específico: não é mais um agente na nuvem para plugar, é todo o ecossistema de pesos abertos, nos seus termos, a custo zero e privado por padrão.

O local para o muito, a nuvem para a exceção, e um controle para mover qualquer agente entre os dois. Baixe o AgentsRoom, conecte o Ollama e coloque para trabalhar uma room inteira de modelos open source. Consulte a matriz completa de compatibilidade de provedores, ou leia mais sobre o suporte multiprovedor e como a troca no meio da conversa mantém o seu contexto intacto.