AgentsRoom giờ đã hỗ trợ Ollama: Chạy model cục bộ ngay cạnh cloud

Ollama giờ là một nhà cung cấp trong AgentsRoom. Chạy các model mã nguồn mở cục bộ như Llama, Qwen, Gemma và DeepSeek ngay cạnh các agent cloud, với một núm gạt cục bộ hay cloud trên từng agent, đổi được ngay giữa cuộc hội thoại.

3 tháng 7, 2026

Ollama giờ đã là một nhà cung cấp được hỗ trợ trong AgentsRoom. Bạn có thể gán một model mã nguồn mở cục bộ cho bất kỳ agent nào, chạy nó trên cùng một bảng điều khiển với Claude, Codex, Grok Build và Mistral Vibe, rồi chuyển đổi ngay giữa cuộc hội thoại mà không mất ngữ cảnh. Những bộ trọng số mở bạn đã quen, Llama, Qwen, Gemma, DeepSeek và số còn lại, giờ đã trình diện sẵn sàng trong room của bạn.

Ollama không hẳn giống những nhà cung cấp khác mà chúng tôi đã thêm vào. Nó không phải chỉ là thêm một agent nữa để đặt cược. Nó là cánh cửa mở ra toàn bộ kho model mã nguồn mở, chạy trên chính phần cứng của bạn, với chi phí bằng không cho mỗi token và riêng tư theo mặc định.

Ollama là gì

Ollama là một runtime miễn phí, mã nguồn mở, tải về và chạy các model ngôn ngữ lớn ngay trên máy của bạn. Một lệnh, ollama pull qwen3-coder, kéo model về. ollama run phục vụ nó tại một endpoint cục bộ ở http://localhost:11434. Nó cung cấp một API tương thích OpenAI, và đó chính xác là lý do các agent coding có thể nói chuyện với nó mà không cần lớp keo tùy chỉnh nào, đồng thời nó chạy trên macOS, Windows và Linux.

Nó cũng hỗ trợ tool calling, thứ mà một agent coding cần để chỉnh sửa file và chạy lệnh chứ không chỉ trò chuyện. Thư viện model đọc lên như một danh sách các gương mặt hàng đầu của giới trọng số mở: Llama, Qwen, Gemma, DeepSeek, Mistral, Phi và nhiều nữa, với đủ kích cỡ hợp cho mọi thứ từ laptop đến GPU workstation.

Hai sự thật chống đỡ toàn bộ phần còn lại của bài viết này. Model chạy trên máy của bạn, nên không có gì bạn gõ đi qua mạng. Và suy luận cục bộ không có hóa đơn tính theo token. Mọi thứ bên dưới đều là hệ quả của hai điều đó.

Lựa chọn cục bộ hay cloud mà ai cũng chấp nhận

Cho tới nay quyết định vẫn là nhị phân. Đặt cược tất tay vào cloud thì bạn có được năng lực suy luận đỉnh cao, nhưng mọi prompt và mọi file bạn chạm đến đều được gửi tới một API bên thứ ba và tính từng token. Đặt cược tất tay vào cục bộ thì bạn có sự riêng tư và chi phí bằng không, nhưng bạn từ bỏ những model mạnh nhất cho đúng những bài toán thực sự cần chúng. Phần lớn các đội chọn một làn và ở lì trong đó.

Cái nhị phân ấy là một lựa chọn giả, bởi một codebase không phải chỉ một loại công việc. Đổi tên một ký hiệu qua bốn mươi file, viết các bài test boilerplate, tóm tắt một diff, soạn một message commit: chẳng việc nào cần đến một model đỉnh cao, và phần lớn trong số đó chạm vào đoạn code bạn thà không gửi đi đâu cả. Một cú refactor kiến trúc hóc búa thì có lẽ cần đến cỗ máy lớn. Trả giá cloud đỉnh cao cho việc lặt vặt, hay làm què tác vụ khó bằng một model quá nhỏ, chính là cái thuế bạn phải trả khi coi lựa chọn này là được ăn cả ngã về không.

Trong AgentsRoom, cục bộ hay cloud là một núm gạt, không phải một công tắc

AgentsRoom vốn đã cho mỗi agent nhà cung cấp và model riêng của nó. Thêm Ollama nghĩa là mỗi agent giờ có thể nằm ở bất cứ đâu trên núm gạt từ cục bộ đến cloud, và bạn chỉnh nó theo từng agent, từng tác vụ.

Núm gạt ấy theo đúng nghĩa đen chính là id của model. Gõ qwen3-coder:30b và agent chạy Qwen cục bộ qua Ollama, trên phần cứng của bạn, miễn phí. Thêm hậu tố :cloud, glm-4.6:cloud, và cùng agent đó lại chạy model kia qua gói đăng ký Ollama Cloud của bạn. Một hậu tố chuyển một agent từ GPU của bạn sang một GPU được host mà không đụng đến bất cứ thứ gì khác trong thiết lập.

Vì AgentsRoom giữ nguyên ngữ cảnh của bạn khi đổi nhà cung cấp, núm gạt cũng dịch chuyển được ngay giữa cuộc hội thoại. Khởi một agent trên một model cục bộ, để nó cày qua phần cơ khí của một tác vụ, rồi chuyển nó sang một model cloud cho đúng cái bước cần suy luận sâu hơn. AgentsRoom dựng một bản tóm tắt bàn giao gồm các file đã chạm, tiến độ và hoạt động của phiên, để model cloud tiếp nhận đúng ngay chỗ model cục bộ dừng lại. Lật ngược lại khi phần khó đã xong.

Cách dùng nó

Nếu bạn đã dùng AgentsRoom, gần như chẳng có gì mới phải học:

Cài Ollama từ ollama.com và kéo về một model: ollama pull qwen3-coder:30b. Một model Qwen Coder là mặc định mạnh cho việc code. Máy nhỏ hơn chạy bản 7B thoải mái, và một GPU 24GB gánh được bản 30B với cửa sổ ngữ cảnh lớn.
Trong phần cài đặt của AgentsRoom, chọn Ollama làm nhà cung cấp, đặt làm mặc định hoặc chỉ trên một agent.
Tạo một agent, giao cho nó một vai trò, và trong ô model gõ id model Ollama. Dùng qwen3-coder:30b để chạy cục bộ, hoặc thêm :cloud để chạy qua Ollama Cloud.
Gửi một prompt. AgentsRoom sinh ra tiến trình ollama run thật trong thư mục dự án của bạn và stream output trực tiếp, y hệt cách nó điều khiển mọi nhà cung cấp khác.

Một mẹo từ thực chiến: Ollama mặc định cấp cho model mới một cửa sổ ngữ cảnh nhỏ. Với công việc kiểu agentic, hãy nâng nó lên để agent có thể giữ trong tầm nhìn một lát cắt thực sự của repo, chứ không chỉ vài message cuối.

Bài toán kinh tế của một bầy agent miễn phí và riêng tư

AgentsRoom được dựng để chạy các agent song song: cả một bảng điều khiển, mỗi con một tác vụ riêng, mỗi con một chấm trạng thái. Trên các nhà cung cấp cloud, sự song song ấy đi kèm một chiếc đồng hồ đang chạy, bởi sáu agent làm việc cùng lúc là sáu hóa đơn token cùng leo thang. Trên các model Ollama cục bộ, chi phí biên của một token là bằng không. Bật lên một bầy agent, để nó chạy suốt cả buổi chiều, và hóa đơn duy nhất là tiền điện.

Biểu đồ cột so sánh chi phí vận hành của sáu agent coding làm việc song song. Đội hình cloud là một cột cao vì cả sáu agent đều bị tính từng token. Đội hình cục bộ trên các model Ollama là một cột tí hon sát đường nền vì suy luận cục bộ không có hóa đơn theo token, nên chi phí duy nhất là tiền điện.

Điều đó thay đổi mục đích của sự song song. Khi mỗi agent bị tính tiền, bạn định mức chúng. Khi chúng miễn phí, bạn có thể rộng rãi theo cái cách hữu ích: một agent cục bộ canh chừng độ trôi của lint, một con giữ changelog luôn cập nhật, một con soạn test cho từng hàm mới, tất cả chạy nền với chi phí biên bằng không trong khi agent cloud tính phí của bạn vẫn được để dành cho công việc thực sự cần đến nó. Nếu chạy nhiều agent cùng lúc còn mới mẻ với bạn, chúng tôi đã viết về mô thức này trong bài chạy các agent coding song song.

Sự riêng tư mà bạn không phải biện hộ

Với rất nhiều đội, yếu tố quyết định không phải chi phí, mà là nơi đoạn code đi tới. Ngành nghề bị quản lý chặt, việc cho khách hàng dưới NDA, một codebase nội bộ mà bộ phận pháp lý không cho phép lại gần một API bên thứ ba: suy luận cục bộ trả lời câu hỏi trước cả khi nó được đặt ra, bởi model chạy trên máy và prompt không bao giờ đi qua mạng. Không có gì để phê duyệt, không thỏa thuận xử lý dữ liệu, không điều khoản nơi lưu trú dữ liệu.

AgentsRoom khớp với thế đứng đó từ đầu đến cuối. Các model cục bộ giữ code của bạn ở trên máy, và bản thân cơ chế đồng bộ của AgentsRoom giữa desktop và điện thoại của bạn được mã hóa đầu cuối, nên việc giám sát cả đội hình từ đầu kia căn phòng chẳng bao giờ phá bỏ sự riêng tư mà model cục bộ vừa mua cho bạn. Nếu tuân thủ pháp lý là lý do bạn đọc bài này, thì chính sự kết hợp đó là điểm cốt lõi, và nó ăn ý với những thực hành trong ghi chú của chúng tôi về vibe coding và tuân thủ GDPR.

Mô thức lai rồi tự nó hiện ra: định tuyến phần riêng tư và phần khối lượng lớn tới một model cục bộ, chỉ leo thang phần suy luận khó và không nhạy cảm lên cloud, rồi để núm gạt lo phần bàn giao. Bạn có sức mạnh đỉnh cao ở đúng nơi nó xứng đáng, và sự riêng tư cục bộ ở mọi nơi còn lại.

Vì sao điều này quan trọng

AgentsRoom chưa bao giờ là một client cho một model hay một nhà cung cấp duy nhất. Nó là một buồng lái để chạy đúng agent cho từng tác vụ, cạnh nhau, dưới cùng một đôi mắt. Ollama nới rộng lời hứa đó theo một cách rất cụ thể: nó không phải thêm một agent cloud nữa để cắm vào, mà là cả một hệ sinh thái trọng số mở, theo điều kiện của riêng bạn, giá bằng không và riêng tư theo mặc định.

Cục bộ cho số đông, cloud cho số ít, và một núm gạt để chuyển bất kỳ agent nào giữa hai bên. Tải AgentsRoom, kết nối Ollama, và cho cả một room đầy các model mã nguồn mở vào việc. Xem ma trận tương thích nhà cung cấp đầy đủ, hoặc đọc thêm về hỗ trợ đa nhà cung cấp và cách việc chuyển đổi ngay giữa cuộc hội thoại giữ nguyên vẹn ngữ cảnh của bạn.