AgentsRoom 现已支持 Ollama:让本地模型与云端并肩运行
Ollama 现已成为 AgentsRoom 的一个提供方。让 Llama、Qwen、Gemma、DeepSeek 等本地开源模型与云端智能体并肩运行,并为每个智能体设置一个本地或云端的旋钮,对话中途也能切换。
Ollama 现已成为 AgentsRoom 中受支持的提供方。你可以把一个本地开源模型分配给任意智能体,让它与 Claude、Codex、Grok Build 和 Mistral Vibe 在同一块看板上运行,并在对话中途切换而不丢失上下文。你早已熟悉的那些开放权重模型:Llama、Qwen、Gemma、DeepSeek 等等,如今都到你的 room 里报到了。
Ollama 和我们此前加入的其他提供方不太一样。它不是又一个值得押注的智能体,而是通往整个开源模型目录的一扇门:跑在你自己的硬件上,每个 token 的成本为零,且默认私有。
Ollama 是什么
Ollama 是一个免费、开源的运行时,它把大语言模型下载到你自己的机器上运行。一条命令 ollama pull qwen3-coder 就能拉取模型。ollama run 会把它托管在 http://localhost:11434 的本地端点上。它暴露一个兼容 OpenAI 的 API,正因如此,编程智能体无需任何定制粘合代码就能与它通信;它支持 macOS、Windows 和 Linux。
它还支持工具调用,这正是编程智能体不只是聊天、而要编辑文件和运行命令时所需的能力。它的模型库堪称开放权重的名人录:Llama、Qwen、Gemma、DeepSeek、Mistral、Phi 等等,尺寸覆盖从笔记本到工作站 GPU 的各种场景。
这篇文章余下的内容都建立在两个事实之上。模型跑在你自己的机器上,所以你输入的任何内容都不会穿过网络。而本地推理没有按 token 计费的账单。下面的一切,都是这两点的必然结果。
人人都接受的本地与云端之选
在此之前,这个决定是非此即彼的。全押云端,你能获得前沿的推理能力,但你的每一条提示、你碰过的每一个文件,都会被发往第三方 API 并按 token 计费。全押本地,你能获得隐私和零成本,却要在那些真正需要强模型的问题上放弃最强的模型。大多数团队选定一条车道,就不再挪窝。
这种非黑即白其实是个伪命题,因为一个代码库并不是单一类型的工作。在四十个文件里重命名一个符号、编写样板测试、总结一段 diff、起草一条提交信息:这些都不需要前沿模型,而且其中很多都会碰到你并不想外发的代码。反倒是一次棘手的架构重构,也许才需要那台大引擎。为样板工作付前沿云端的价钱,或用一个太小的模型去束手束脚地啃硬骨头,就是你把这个选择当成非此即彼所要缴的税。
在 AgentsRoom 里,本地或云端是一个旋钮,而不是一个开关
AgentsRoom 本就为每个智能体配备各自的提供方和模型。加入 Ollama 意味着,如今每个智能体都能停在本地到云端这个旋钮上的任意位置,而且由你按智能体、按任务来设定。
这个旋钮,字面上就是模型 ID。输入 qwen3-coder:30b,智能体就通过 Ollama 在本地、在你的硬件上、免费地运行 Qwen。加上 :cloud 后缀,写成 glm-4.6:cloud,同一个智能体就改为通过你的 Ollama Cloud 订阅来运行那个模型。一个后缀,就能在不改动配置中其他任何设置的情况下,把一个智能体从你的 GPU 挪到一台托管 GPU 上。
因为 AgentsRoom 会在切换提供方时保留你的上下文,所以这个旋钮在对话中途也能拨动。让一个智能体从本地模型起步,把任务里机械的部分磨完,再在唯一需要更深推理的那一步把它切换到云端模型。AgentsRoom 会生成一份交接摘要,记录改动过的文件、进度和会话活动,让云端模型正好从本地模型停下的地方接手。等硬骨头啃完,再把它拨回来。
如何使用
如果你已经在用 AgentsRoom,几乎没有什么新东西要学:
- 从
ollama.com安装 Ollama 并拉取一个模型:ollama pull qwen3-coder:30b。Qwen Coder 模型是写代码时一个很强的默认选择。配置较低的机器也能轻松跑 7B,而一块 24GB 的 GPU 能带着大上下文窗口驾驭 30B。 - 在 AgentsRoom 设置里,把 Ollama 选为提供方,无论是作为默认,还是只用在某一个智能体上。
- 创建一个智能体,给它一个角色,然后在模型字段里输入 Ollama 的模型 ID。用
qwen3-coder:30b在本地运行,或加上:cloud通过 Ollama Cloud 运行。 - 发送一条提示。AgentsRoom 会在你的项目文件夹里启动真正的
ollama run进程,并实时流式输出,方式和它驱动其他每一个提供方完全一样。
来自一线的一个小提示:Ollama 给新模型默认的是一个很小的上下文窗口。做智能体式的工作时,请把它调大,好让智能体能把仓库里实实在在的一大块内容纳入视野,而不只是最近几条消息。
一支免费而私有的智能体集群的经济账
AgentsRoom 天生就是为并行运行智能体而造的:满满一块看板,每个智能体各司其职,各有一颗状态圆点。在云端提供方上,这种并行伴随着一只不停转的计价表,因为六个智能体同时开工,就是六张 token 账单一起往上爬。而在本地的 Ollama 模型上,一个 token 的边际成本为零。开起一支集群,让它跑一整个下午,唯一的账单只有电费。
这改变了并行的用途。当每个智能体都要计价,你就会省着用。当它们免费,你就能以有益的方式慷慨起来:一个盯着 lint 走样的本地智能体,一个把 changelog 保持更新的智能体,一个为每个新函数起草测试的智能体,全都以零边际成本在后台跑着,而那个要计价的云端智能体则留给真正需要它的工作。如果同时跑很多智能体对你来说还是新鲜事,我们在并行运行编程智能体一文里讲过这个模式。
无需为之申辩的隐私
对很多团队来说,决定性因素不是成本,而是代码去了哪里。受监管的行业、NDA 之下的客户项目、法务绝不允许靠近第三方 API 的内部代码库:本地推理在问题被问出口之前就给出了答案,因为模型就跑在本机上,提示从不跨越网络。没有什么要走审查,没有数据处理协议,也没有数据驻留条款。
AgentsRoom 从头到尾都契合这种姿态。本地模型把你的代码留在本机,而 AgentsRoom 自身在桌面端与手机之间的同步是端到端加密的,所以哪怕你从房间另一头监督整支机队,也绝不会拆穿本地模型刚刚为你换来的隐私。如果你读到这里是因为合规,那么正是这个组合才是重点,它也与我们在vibe coding 与 GDPR 合规一文中的做法相得益彰。
那么混合模式便会自行浮现:把私有的和批量的分流给本地模型,只把困难而不敏感的推理升级到云端,交接就交给旋钮去打理。前沿算力用在它能挣回身价的地方,其余每一处则享有本地的隐私。
为何重要
AgentsRoom 从来都不是某一个模型或某一家厂商的客户端。它是一个座舱,让你为每项任务运行最合适的智能体,彼此并肩,同在一双眼睛的注视之下。Ollama 以一种具体的方式拓宽了这个承诺:它不是又一个要接入的云端智能体,而是整个开放权重生态,按你自己的条件,价格为零,且默认私有。
多数的活儿交给本地,少数的交给云端,再用一个旋钮把任意智能体在两者之间挪动。下载 AgentsRoom,接上 Ollama,让满屋子的开源模型开工。查看完整的提供方兼容性矩阵,或进一步了解多提供方支持,以及对话中途切换如何让你的上下文完好无损。
下载 AgentsRoom
在一个窗口中运行你所有项目的 AI 智能体(Claude、Codex、Antigravity CLI、OpenCode、Aider)。
配套应用:随时随地监控你的 Agent
使用 Claude、Codex、Antigravity CLI 或其他 AI 提供商。
把 Bug 和需求直接发送到您的公开待办清单。
AgentsRoom 实际运行一瞥。