AgentsRoom 现已支持 Ollama：让本地模型与云端并肩运行

Ollama 现已成为 AgentsRoom 的一个提供方。让 Llama、Qwen、Gemma、DeepSeek 等本地开源模型与云端智能体并肩运行，并为每个智能体设置一个本地或云端的旋钮，对话中途也能切换。

2026年7月3日

Ollama 现已成为 AgentsRoom 中受支持的提供方。你可以把一个本地开源模型分配给任意智能体，让它与 Claude、Codex、Grok Build 和 Mistral Vibe 在同一块看板上运行，并在对话中途切换而不丢失上下文。你早已熟悉的那些开放权重模型：Llama、Qwen、Gemma、DeepSeek 等等，如今都到你的 room 里报到了。

Ollama 和我们此前加入的其他提供方不太一样。它不是又一个值得押注的智能体，而是通往整个开源模型目录的一扇门：跑在你自己的硬件上，每个 token 的成本为零，且默认私有。

Ollama 是什么

Ollama 是一个免费、开源的运行时，它把大语言模型下载到你自己的机器上运行。一条命令 ollama pull qwen3-coder 就能拉取模型。ollama run 会把它托管在 http://localhost:11434 的本地端点上。它暴露一个兼容 OpenAI 的 API，正因如此，编程智能体无需任何定制粘合代码就能与它通信；它支持 macOS、Windows 和 Linux。

它还支持工具调用，这正是编程智能体不只是聊天、而要编辑文件和运行命令时所需的能力。它的模型库堪称开放权重的名人录：Llama、Qwen、Gemma、DeepSeek、Mistral、Phi 等等，尺寸覆盖从笔记本到工作站 GPU 的各种场景。

这篇文章余下的内容都建立在两个事实之上。模型跑在你自己的机器上，所以你输入的任何内容都不会穿过网络。而本地推理没有按 token 计费的账单。下面的一切，都是这两点的必然结果。

人人都接受的本地与云端之选

在此之前，这个决定是非此即彼的。全押云端，你能获得前沿的推理能力，但你的每一条提示、你碰过的每一个文件，都会被发往第三方 API 并按 token 计费。全押本地，你能获得隐私和零成本，却要在那些真正需要强模型的问题上放弃最强的模型。大多数团队选定一条车道，就不再挪窝。

这种非黑即白其实是个伪命题，因为一个代码库并不是单一类型的工作。在四十个文件里重命名一个符号、编写样板测试、总结一段 diff、起草一条提交信息：这些都不需要前沿模型，而且其中很多都会碰到你并不想外发的代码。反倒是一次棘手的架构重构，也许才需要那台大引擎。为样板工作付前沿云端的价钱，或用一个太小的模型去束手束脚地啃硬骨头，就是你把这个选择当成非此即彼所要缴的税。

在 AgentsRoom 里，本地或云端是一个旋钮，而不是一个开关

AgentsRoom 本就为每个智能体配备各自的提供方和模型。加入 Ollama 意味着，如今每个智能体都能停在本地到云端这个旋钮上的任意位置，而且由你按智能体、按任务来设定。

标题为「每个智能体一个本地到云端旋钮」的示意图。三个智能体各自处在自己的水平轨道上，轨道从左端的本地（私有、免费、在你的机器上）一直延伸到右端的云端（前沿、付费、托管）。一个批量重构智能体的旋钮靠近本地一端，运行 qwen3-coder:30b；一个测试编写智能体也靠近本地一端，运行 gemma3:12b；而一个架构师智能体的旋钮靠近云端一端，运行 glm-4.6:cloud。

这个旋钮，字面上就是模型 ID。输入 qwen3-coder:30b，智能体就通过 Ollama 在本地、在你的硬件上、免费地运行 Qwen。加上 :cloud 后缀，写成 glm-4.6:cloud，同一个智能体就改为通过你的 Ollama Cloud 订阅来运行那个模型。一个后缀，就能在不改动配置中其他任何设置的情况下，把一个智能体从你的 GPU 挪到一台托管 GPU 上。

因为 AgentsRoom 会在切换提供方时保留你的上下文，所以这个旋钮在对话中途也能拨动。让一个智能体从本地模型起步，把任务里机械的部分磨完，再在唯一需要更深推理的那一步把它切换到云端模型。AgentsRoom 会生成一份交接摘要，记录改动过的文件、进度和会话活动，让云端模型正好从本地模型停下的地方接手。等硬骨头啃完，再把它拨回来。

如何使用

如果你已经在用 AgentsRoom，几乎没有什么新东西要学：

从 ollama.com 安装 Ollama 并拉取一个模型：ollama pull qwen3-coder:30b。Qwen Coder 模型是写代码时一个很强的默认选择。配置较低的机器也能轻松跑 7B，而一块 24GB 的 GPU 能带着大上下文窗口驾驭 30B。
在 AgentsRoom 设置里，把 Ollama 选为提供方，无论是作为默认，还是只用在某一个智能体上。
创建一个智能体，给它一个角色，然后在模型字段里输入 Ollama 的模型 ID。用 qwen3-coder:30b 在本地运行，或加上 :cloud 通过 Ollama Cloud 运行。
发送一条提示。AgentsRoom 会在你的项目文件夹里启动真正的 ollama run 进程，并实时流式输出，方式和它驱动其他每一个提供方完全一样。

来自一线的一个小提示：Ollama 给新模型默认的是一个很小的上下文窗口。做智能体式的工作时，请把它调大，好让智能体能把仓库里实实在在的一大块内容纳入视野，而不只是最近几条消息。

一支免费而私有的智能体集群的经济账

AgentsRoom 天生就是为并行运行智能体而造的：满满一块看板，每个智能体各司其职，各有一颗状态圆点。在云端提供方上，这种并行伴随着一只不停转的计价表，因为六个智能体同时开工，就是六张 token 账单一起往上爬。而在本地的 Ollama 模型上，一个 token 的边际成本为零。开起一支集群，让它跑一整个下午，唯一的账单只有电费。

一张对比六个编程智能体并行工作时运行成本的柱状图。云端机队是一根高高的柱子，因为这六个智能体每一个都按 token 计价。用 Ollama 模型的本地机队则是贴近基线的一根很矮的柱子，因为本地推理没有按 token 计费的账单，唯一的成本就是电费。

这改变了并行的用途。当每个智能体都要计价，你就会省着用。当它们免费，你就能以有益的方式慷慨起来：一个盯着 lint 走样的本地智能体，一个把 changelog 保持更新的智能体，一个为每个新函数起草测试的智能体，全都以零边际成本在后台跑着，而那个要计价的云端智能体则留给真正需要它的工作。如果同时跑很多智能体对你来说还是新鲜事，我们在并行运行编程智能体一文里讲过这个模式。

无需为之申辩的隐私

对很多团队来说，决定性因素不是成本，而是代码去了哪里。受监管的行业、NDA 之下的客户项目、法务绝不允许靠近第三方 API 的内部代码库：本地推理在问题被问出口之前就给出了答案，因为模型就跑在本机上，提示从不跨越网络。没有什么要走审查，没有数据处理协议，也没有数据驻留条款。

混合模式的流程图，默认本地、按需云端。进来的编程工作抵达一个按任务分流的分诊环节。批量的、私有的、例行的工作交给 Ollama 上的本地模型，它私有、免费，并让许多智能体并行运行，代码从不离开本机。困难而不敏感的推理则交给云端模型，为唯一需要它的那一步提供前沿算力。一条虚线箭头表示同一个智能体在任务中途从本地升级到云端，AgentsRoom 带着上下文一路跨过这次切换。

AgentsRoom 从头到尾都契合这种姿态。本地模型把你的代码留在本机，而 AgentsRoom 自身在桌面端与手机之间的同步是端到端加密的，所以哪怕你从房间另一头监督整支机队，也绝不会拆穿本地模型刚刚为你换来的隐私。如果你读到这里是因为合规，那么正是这个组合才是重点，它也与我们在vibe coding 与 GDPR 合规一文中的做法相得益彰。

那么混合模式便会自行浮现：把私有的和批量的分流给本地模型，只把困难而不敏感的推理升级到云端，交接就交给旋钮去打理。前沿算力用在它能挣回身价的地方，其余每一处则享有本地的隐私。