AgentsRoom 现已支持 Ollama:让本地模型与云端并肩运行

Ollama 现已成为 AgentsRoom 的一个提供方。让 Llama、Qwen、Gemma、DeepSeek 等本地开源模型与云端智能体并肩运行,并为每个智能体设置一个本地或云端的旋钮,对话中途也能切换。

Ollama 现已成为 AgentsRoom 中受支持的提供方。你可以把一个本地开源模型分配给任意智能体,让它与 Claude、Codex、Grok Build 和 Mistral Vibe 在同一块看板上运行,并在对话中途切换而不丢失上下文。你早已熟悉的那些开放权重模型:Llama、Qwen、Gemma、DeepSeek 等等,如今都到你的 room 里报到了。

Ollama 和我们此前加入的其他提供方不太一样。它不是又一个值得押注的智能体,而是通往整个开源模型目录的一扇门:跑在你自己的硬件上,每个 token 的成本为零,且默认私有。

Ollama 是什么

Ollama 是一个免费、开源的运行时,它把大语言模型下载到你自己的机器上运行。一条命令 ollama pull qwen3-coder 就能拉取模型。ollama run 会把它托管在 http://localhost:11434 的本地端点上。它暴露一个兼容 OpenAI 的 API,正因如此,编程智能体无需任何定制粘合代码就能与它通信;它支持 macOS、Windows 和 Linux。

它还支持工具调用,这正是编程智能体不只是聊天、而要编辑文件和运行命令时所需的能力。它的模型库堪称开放权重的名人录:Llama、Qwen、Gemma、DeepSeek、Mistral、Phi 等等,尺寸覆盖从笔记本到工作站 GPU 的各种场景。

这篇文章余下的内容都建立在两个事实之上。模型跑在你自己的机器上,所以你输入的任何内容都不会穿过网络。而本地推理没有按 token 计费的账单。下面的一切,都是这两点的必然结果。

人人都接受的本地与云端之选

在此之前,这个决定是非此即彼的。全押云端,你能获得前沿的推理能力,但你的每一条提示、你碰过的每一个文件,都会被发往第三方 API 并按 token 计费。全押本地,你能获得隐私和零成本,却要在那些真正需要强模型的问题上放弃最强的模型。大多数团队选定一条车道,就不再挪窝。

这种非黑即白其实是个伪命题,因为一个代码库并不是单一类型的工作。在四十个文件里重命名一个符号、编写样板测试、总结一段 diff、起草一条提交信息:这些都不需要前沿模型,而且其中很多都会碰到你并不想外发的代码。反倒是一次棘手的架构重构,也许才需要那台大引擎。为样板工作付前沿云端的价钱,或用一个太小的模型去束手束脚地啃硬骨头,就是你把这个选择当成非此即彼所要缴的税。

在 AgentsRoom 里,本地或云端是一个旋钮,而不是一个开关

AgentsRoom 本就为每个智能体配备各自的提供方和模型。加入 Ollama 意味着,如今每个智能体都能停在本地到云端这个旋钮上的任意位置,而且由你按智能体、按任务来设定。

标题为「每个智能体一个本地到云端旋钮」的示意图。三个智能体各自处在自己的水平轨道上,轨道从左端的本地(私有、免费、在你的机器上)一直延伸到右端的云端(前沿、付费、托管)。一个批量重构智能体的旋钮靠近本地一端,运行 qwen3-coder:30b;一个测试编写智能体也靠近本地一端,运行 gemma3:12b;而一个架构师智能体的旋钮靠近云端一端,运行 glm-4.6:cloud。

这个旋钮,字面上就是模型 ID。输入 qwen3-coder:30b,智能体就通过 Ollama 在本地、在你的硬件上、免费地运行 Qwen。加上 :cloud 后缀,写成 glm-4.6:cloud,同一个智能体就改为通过你的 Ollama Cloud 订阅来运行那个模型。一个后缀,就能在不改动配置中其他任何设置的情况下,把一个智能体从你的 GPU 挪到一台托管 GPU 上。

因为 AgentsRoom 会在切换提供方时保留你的上下文,所以这个旋钮在对话中途也能拨动。让一个智能体从本地模型起步,把任务里机械的部分磨完,再在唯一需要更深推理的那一步把它切换到云端模型。AgentsRoom 会生成一份交接摘要,记录改动过的文件、进度和会话活动,让云端模型正好从本地模型停下的地方接手。等硬骨头啃完,再把它拨回来。

如何使用

如果你已经在用 AgentsRoom,几乎没有什么新东西要学:

  1. ollama.com 安装 Ollama 并拉取一个模型:ollama pull qwen3-coder:30b。Qwen Coder 模型是写代码时一个很强的默认选择。配置较低的机器也能轻松跑 7B,而一块 24GB 的 GPU 能带着大上下文窗口驾驭 30B。
  2. 在 AgentsRoom 设置里,把 Ollama 选为提供方,无论是作为默认,还是只用在某一个智能体上。
  3. 创建一个智能体,给它一个角色,然后在模型字段里输入 Ollama 的模型 ID。用 qwen3-coder:30b 在本地运行,或加上 :cloud 通过 Ollama Cloud 运行。
  4. 发送一条提示。AgentsRoom 会在你的项目文件夹里启动真正的 ollama run 进程,并实时流式输出,方式和它驱动其他每一个提供方完全一样。

来自一线的一个小提示:Ollama 给新模型默认的是一个很小的上下文窗口。做智能体式的工作时,请把它调大,好让智能体能把仓库里实实在在的一大块内容纳入视野,而不只是最近几条消息。

一支免费而私有的智能体集群的经济账

AgentsRoom 天生就是为并行运行智能体而造的:满满一块看板,每个智能体各司其职,各有一颗状态圆点。在云端提供方上,这种并行伴随着一只不停转的计价表,因为六个智能体同时开工,就是六张 token 账单一起往上爬。而在本地的 Ollama 模型上,一个 token 的边际成本为零。开起一支集群,让它跑一整个下午,唯一的账单只有电费。

一张对比六个编程智能体并行工作时运行成本的柱状图。云端机队是一根高高的柱子,因为这六个智能体每一个都按 token 计价。用 Ollama 模型的本地机队则是贴近基线的一根很矮的柱子,因为本地推理没有按 token 计费的账单,唯一的成本就是电费。

这改变了并行的用途。当每个智能体都要计价,你就会省着用。当它们免费,你就能以有益的方式慷慨起来:一个盯着 lint 走样的本地智能体,一个把 changelog 保持更新的智能体,一个为每个新函数起草测试的智能体,全都以零边际成本在后台跑着,而那个要计价的云端智能体则留给真正需要它的工作。如果同时跑很多智能体对你来说还是新鲜事,我们在并行运行编程智能体一文里讲过这个模式。

无需为之申辩的隐私

对很多团队来说,决定性因素不是成本,而是代码去了哪里。受监管的行业、NDA 之下的客户项目、法务绝不允许靠近第三方 API 的内部代码库:本地推理在问题被问出口之前就给出了答案,因为模型就跑在本机上,提示从不跨越网络。没有什么要走审查,没有数据处理协议,也没有数据驻留条款。

混合模式的流程图,默认本地、按需云端。进来的编程工作抵达一个按任务分流的分诊环节。批量的、私有的、例行的工作交给 Ollama 上的本地模型,它私有、免费,并让许多智能体并行运行,代码从不离开本机。困难而不敏感的推理则交给云端模型,为唯一需要它的那一步提供前沿算力。一条虚线箭头表示同一个智能体在任务中途从本地升级到云端,AgentsRoom 带着上下文一路跨过这次切换。

AgentsRoom 从头到尾都契合这种姿态。本地模型把你的代码留在本机,而 AgentsRoom 自身在桌面端与手机之间的同步是端到端加密的,所以哪怕你从房间另一头监督整支机队,也绝不会拆穿本地模型刚刚为你换来的隐私。如果你读到这里是因为合规,那么正是这个组合才是重点,它也与我们在vibe coding 与 GDPR 合规一文中的做法相得益彰。

那么混合模式便会自行浮现:把私有的和批量的分流给本地模型,只把困难而不敏感的推理升级到云端,交接就交给旋钮去打理。前沿算力用在它能挣回身价的地方,其余每一处则享有本地的隐私。

为何重要

AgentsRoom 从来都不是某一个模型或某一家厂商的客户端。它是一个座舱,让你为每项任务运行最合适的智能体,彼此并肩,同在一双眼睛的注视之下。Ollama 以一种具体的方式拓宽了这个承诺:它不是又一个要接入的云端智能体,而是整个开放权重生态,按你自己的条件,价格为零,且默认私有。

多数的活儿交给本地,少数的交给云端,再用一个旋钮把任意智能体在两者之间挪动。下载 AgentsRoom,接上 Ollama,让满屋子的开源模型开工。查看完整的提供方兼容性矩阵,或进一步了解多提供方支持,以及对话中途切换如何让你的上下文完好无损。

下载 AgentsRoom

在一个窗口中运行你所有项目的 AI 智能体(Claude、Codex、Antigravity CLI、OpenCode、Aider)。

免费下载 AgentsRoom

配套应用:随时随地监控你的 Agent

使用 Claude、Codex、Antigravity CLI 或其他 AI 提供商。

获取扩展
Chrome Web Store

把 Bug 和需求直接发送到您的公开待办清单。

AgentsRoom 实际运行一瞥。

多项目管理
多供应商
多代理运行
实时状态
文件差异与提交
移动应用
实时预览
代理团队
浏览器自动化
Backlog 驱动开发
提示词库
技能库
查看所有功能