AgentsRoom ya es compatible con Ollama: ejecuta modelos locales junto al cloud

Ollama ya es un proveedor en AgentsRoom. Ejecuta modelos open source locales como Llama, Qwen, Gemma y DeepSeek junto a los agentes cloud, con un mando local o cloud por agente, conmutable a mitad de conversación.

3 de julio de 2026

Ollama es ya un proveedor compatible en AgentsRoom. Puedes asignar un modelo open source local a cualquier agente, ejecutarlo en el mismo tablero que Claude, Codex, Grok Build y Mistral Vibe, y conmutar a mitad de conversación sin perder tu contexto. Los modelos de pesos abiertos que ya conoces, Llama, Qwen, Gemma, DeepSeek y compañía, se presentan a filas en tu room.

Ollama no es del todo como los otros proveedores que hemos añadido. No es un agente más al que apostar. Es una puerta de entrada a todo el catálogo de modelos open source, ejecutándose en tu propio hardware, a coste cero por token y privado por defecto.

Qué es Ollama

Ollama es un runtime libre y open source que descarga y ejecuta grandes modelos de lenguaje en tu propia máquina. Un solo comando, ollama pull qwen3-coder, se trae el modelo. ollama run lo sirve en un endpoint local en http://localhost:11434. Expone una API compatible con OpenAI, que es justo por lo que los agentes de código pueden hablar con él sin ningún pegamento a medida, y funciona en macOS, Windows y Linux.

También admite tool calling, eso que un agente de código necesita para editar ficheros y ejecutar comandos, no solo charlar. La biblioteca de modelos parece un quién es quién de los pesos abiertos: Llama, Qwen, Gemma, DeepSeek, Mistral, Phi y más, en tamaños para todo, desde un portátil hasta la GPU de una estación de trabajo.

Dos hechos sostienen el resto de este artículo. Los modelos corren en tu máquina, así que nada de lo que escribes cruza la red. Y la inferencia local no tiene factura por token. Todo lo que sigue es consecuencia de esos dos.

La disyuntiva local o cloud que todo el mundo da por buena

Hasta ahora la decisión era binaria. Apuestas todo al cloud y obtienes razonamiento de frontera, pero cada prompt y cada fichero que tocas se envía a una API de terceros y se mide por token. Apuestas todo a lo local y obtienes privacidad y coste cero, pero renuncias a los modelos más potentes en los problemas que de verdad los necesitan. La mayoría de los equipos eligen un carril y no se mueven de él.

Ese binario es un falso dilema, porque una base de código no es un único tipo de trabajo. Renombrar un símbolo en cuarenta ficheros, escribir tests repetitivos, resumir un diff, redactar un mensaje de commit: nada de eso necesita un modelo de frontera, y buena parte toca código que preferirías no enviar a ninguna parte. Un refactor de arquitectura bien enrevesado sí puede pedir el motor grande. Pagar precios de cloud de frontera por el trabajo de fontanería, o lastrar la tarea difícil con un modelo demasiado pequeño, es el peaje que pagas por tratar la elección como todo o nada.

En AgentsRoom, local o cloud es un mando, no un interruptor

AgentsRoom ya da a cada agente su propio proveedor y su propio modelo. Añadir Ollama significa que ahora cada agente puede situarse en cualquier punto del mando de local a cloud, y lo ajustas por agente, por tarea.

El mando es, literalmente, el identificador del modelo. Escribe qwen3-coder:30b y el agente ejecuta Qwen en local a través de Ollama, en tu hardware, gratis. Añade el sufijo :cloud, glm-4.6:cloud, y el mismo agente ejecuta ese modelo a través de tu suscripción a Ollama Cloud. Un sufijo mueve un agente de tu GPU a una alojada sin tocar nada más de la configuración.

Como AgentsRoom conserva tu contexto al cambiar de proveedor, el mando también se mueve a mitad de conversación. Arranca un agente con un modelo local, deja que se coma la parte mecánica de una tarea y luego pásalo a un modelo cloud para ese único paso que pide un razonamiento más profundo. AgentsRoom construye un resumen de traspaso con los ficheros tocados, el progreso y la actividad de la sesión, para que el modelo cloud retome exactamente donde lo dejó el local. Vuelve atrás en cuanto termine la parte difícil.

Cómo usarlo

Si ya usas AgentsRoom, no hay casi nada nuevo que aprender:

Instala Ollama desde ollama.com y descarga un modelo: ollama pull qwen3-coder:30b. Un modelo Qwen Coder es una opción por defecto muy sólida para código. Las máquinas modestas ejecutan el 7B sin problemas, y una GPU de 24GB gestiona el 30B con una ventana de contexto amplia.
En los ajustes de AgentsRoom, elige Ollama como proveedor, ya sea por defecto o en un solo agente.
Crea un agente, dale un rol y, en el campo de modelo, escribe el identificador del modelo Ollama. Usa qwen3-coder:30b para ejecutarlo en local, o añade :cloud para ejecutarlo a través de Ollama Cloud.
Envía un prompt. AgentsRoom lanza el proceso real ollama run en la carpeta de tu proyecto y transmite la salida en directo, igual que gobierna a todos los demás proveedores.

Un consejo de trinchera: Ollama asigna por defecto una ventana de contexto pequeña a los modelos nuevos. Para trabajo agéntico, súbela, para que el agente pueda mantener a la vista una porción real de tu repositorio, no solo los últimos mensajes.

La economía de un enjambre gratis y privado

AgentsRoom está diseñado para ejecutar agentes en paralelo: un tablero entero, cada uno con su tarea, cada uno con su punto de estado. En los proveedores cloud, ese paralelismo lleva un contador corriendo, porque seis agentes trabajando a la vez son seis facturas por token subiendo juntas. En los modelos Ollama locales, el coste marginal de un token es cero. Levanta un enjambre, déjalo correr toda la tarde y la única factura es la de la electricidad.

Gráfico de barras que compara el coste de funcionamiento de seis agentes de código trabajando en paralelo. La flota cloud es una barra alta porque cada uno de los seis agentes se mide por token. La flota local sobre modelos Ollama es una barra diminuta cerca de la línea base porque la inferencia local no tiene factura por token, así que el único coste es la electricidad.

Eso cambia para qué sirve el paralelismo. Cuando cada agente se mide, los racionas. Cuando son gratis, puedes permitirte ser generoso de la forma útil: un agente local que vigila las derivas del lint, otro que mantiene al día el changelog, otro que redacta tests para cada función nueva, todos corriendo en segundo plano a coste marginal cero mientras tu agente cloud, ese sí medido, queda reservado para el trabajo que de verdad lo necesita. Si ejecutar muchos agentes a la vez es algo nuevo para ti, escribimos sobre este patrón en ejecutar agentes de código en paralelo.

Una privacidad que no tienes que justificar

Para muchos equipos, el factor decisivo no es el coste, es adónde va el código. Sectores regulados, encargos bajo NDA, una base de código interna que el departamento legal no deja acercarse a una API de terceros: la inferencia local responde a la pregunta antes de que la formulen, porque el modelo corre en la máquina y el prompt nunca cruza la red. No hay nada que revisar, ningún acuerdo de tratamiento de datos, ninguna cláusula de residencia de datos.

AgentsRoom abraza esa postura de principio a fin. Los modelos locales mantienen tu código en la máquina, y la propia sincronización de AgentsRoom entre tu escritorio y tu teléfono está cifrada de extremo a extremo, de modo que supervisar la flota desde el otro lado de la sala nunca deshace la privacidad que el modelo local acaba de darte. Si es el cumplimiento normativo lo que te ha traído hasta aquí, ahí está justamente el quid, y encaja bien con las prácticas de nuestra nota sobre vibe coding y cumplimiento del RGPD.

El patrón híbrido cae por su propio peso: enruta lo privado y lo masivo a un modelo local, escala al cloud solo el razonamiento difícil y no sensible, y deja que el mando gestione el traspaso. Obtienes potencia de frontera allí donde se gana el sueldo, y privacidad local en todo lo demás.

Por qué importa

AgentsRoom nunca ha sido un cliente para un solo modelo ni un solo proveedor. Es una cabina de mando para lanzar el agente adecuado en cada tarea, codo con codo, bajo un mismo par de ojos. Ollama amplía esa promesa de una forma concreta: no es un agente cloud más que enchufar, es todo el ecosistema de pesos abiertos, en tus términos, a coste cero y privado por defecto.

Lo local para lo mucho, el cloud para lo excepcional, y un mando para mover cualquier agente entre ambos. Descarga AgentsRoom, conecta Ollama y pon a trabajar una room entera de modelos open source. Consulta la matriz completa de compatibilidad de proveedores, o lee más sobre el soporte multiproveedor y cómo el cambio a mitad de conversación mantiene tu contexto intacto.