AgentsRoom Kini Mendukung Ollama: Jalankan Model Lokal di Samping Cloud

Ollama kini menjadi provider di AgentsRoom. Jalankan model open source lokal seperti Llama, Qwen, Gemma, dan DeepSeek di samping agen cloud, dengan tuas lokal-atau-cloud di setiap agen yang bisa diubah di tengah percakapan.

3 Juli 2026

Ollama kini menjadi provider yang didukung di AgentsRoom. Anda bisa menetapkan model open source lokal ke agen mana pun, menjalankannya di papan yang sama dengan Claude, Codex, Grok Build, dan Mistral Vibe, lalu beralih di tengah percakapan tanpa kehilangan konteks. Bobot terbuka yang sudah Anda kenal, Llama, Qwen, Gemma, DeepSeek, dan lainnya, kini siap bertugas di room Anda.

Ollama tidak sepenuhnya sama dengan provider lain yang sudah kami tambahkan. Ia bukan sekadar satu agen lagi untuk dipertaruhkan. Ia adalah pintu menuju seluruh katalog model open source, berjalan di perangkat keras Anda sendiri, dengan biaya nol per token dan privat secara default.

Apa itu Ollama

Ollama adalah runtime gratis dan open source yang mengunduh serta menjalankan model bahasa besar di mesin Anda sendiri. Satu perintah, ollama pull qwen3-coder, mengambil modelnya. ollama run menyajikannya di endpoint lokal pada http://localhost:11434. Ia menyediakan API yang kompatibel dengan OpenAI, dan itulah tepatnya alasan agen coding bisa berbicara dengannya tanpa lem khusus, serta tersedia di macOS, Windows, dan Linux.

Ia juga mendukung tool calling, hal yang dibutuhkan agen coding untuk mengedit file dan menjalankan perintah, bukan sekadar mengobrol. Pustaka modelnya terbaca seperti daftar bintang dunia bobot terbuka: Llama, Qwen, Gemma, DeepSeek, Mistral, Phi, dan banyak lagi, dengan ukuran yang cocok untuk apa saja mulai dari laptop hingga GPU workstation.

Dua fakta menopang seluruh sisa artikel ini. Model berjalan di mesin Anda, jadi tidak ada yang Anda ketik melintasi jaringan. Dan inferensi lokal tidak punya tagihan per token. Semua yang ada di bawah adalah konsekuensi dari dua hal itu.

Pilihan lokal-versus-cloud yang diterima semua orang

Selama ini keputusannya biner. Bertaruh penuh pada cloud dan Anda mendapatkan penalaran kelas atas, tetapi setiap prompt dan setiap file yang Anda sentuh dikirim ke API pihak ketiga dan dihitung per token. Bertaruh penuh pada lokal dan Anda mendapatkan privasi serta biaya nol, tetapi Anda melepaskan model terkuat pada masalah yang benar-benar membutuhkannya. Sebagian besar tim memilih satu jalur dan bertahan di sana.

Biner itu palsu, karena sebuah basis kode bukan satu jenis pekerjaan. Mengganti nama simbol di empat puluh file, menulis tes boilerplate, meringkas diff, menyusun pesan commit: tidak satu pun dari itu membutuhkan model kelas atas, dan sebagian besar menyentuh kode yang lebih baik tidak Anda kirim ke mana pun. Satu refactor arsitektur yang rumit mungkin butuh mesin besar. Membayar harga cloud kelas atas untuk pekerjaan boilerplate, atau melumpuhkan tugas berat dengan model yang terlalu kecil, adalah pajak yang Anda bayar karena memperlakukan pilihan itu sebagai semua-atau-tidak-sama-sekali.

Di AgentsRoom, lokal atau cloud adalah tuas, bukan sakelar

AgentsRoom sudah memberi setiap agen provider dan modelnya sendiri. Menambahkan Ollama berarti setiap agen kini bisa berada di mana saja pada tuas lokal-ke-cloud, dan Anda mengaturnya per agen, per tugas.

Tuasnya secara harfiah adalah id model. Ketik qwen3-coder:30b dan agen menjalankan Qwen secara lokal melalui Ollama, di perangkat keras Anda, gratis. Tambahkan akhiran :cloud, glm-4.6:cloud, dan agen yang sama menjalankan model itu melalui langganan Ollama Cloud Anda. Satu akhiran memindahkan agen dari GPU Anda ke GPU terhosting tanpa menyentuh apa pun yang lain dalam pengaturan.

Karena AgentsRoom menjaga konteks Anda saat berganti provider, tuasnya juga bergerak di tengah percakapan. Mulai sebuah agen pada model lokal, biarkan ia menggarap bagian mekanis sebuah tugas, lalu beralihkan ke model cloud untuk satu langkah yang membutuhkan penalaran lebih dalam. AgentsRoom menyusun ringkasan serah terima berisi file yang disentuh, kemajuan, dan aktivitas sesi, sehingga model cloud melanjutkan tepat di titik model lokal berhenti. Balikkan lagi setelah bagian sulitnya selesai.

Cara menggunakannya

Jika Anda sudah menjalankan AgentsRoom, hampir tidak ada yang baru untuk dipelajari:

Instal Ollama dari ollama.com dan tarik sebuah model: ollama pull qwen3-coder:30b. Model Qwen Coder adalah default yang kuat untuk kode. Mesin yang lebih kecil menjalankan 7B dengan nyaman, dan GPU 24GB menangani 30B dengan jendela konteks besar.
Di pengaturan AgentsRoom, pilih Ollama sebagai provider, entah sebagai default Anda atau pada satu agen saja.
Buat sebuah agen, beri dia peran, dan di kolom model ketik id model Ollama. Gunakan qwen3-coder:30b untuk menjalankannya secara lokal, atau tambahkan :cloud untuk menjalankannya melalui Ollama Cloud.
Kirim sebuah prompt. AgentsRoom menjalankan proses ollama run yang sesungguhnya di folder proyek Anda dan mengalirkan output secara langsung, persis seperti cara ia mengendalikan setiap provider lain.

Satu tip dari lapangan: Ollama secara default memberi model baru jendela konteks yang kecil. Untuk pekerjaan agentik, perbesar agar agen bisa memegang irisan nyata dari repositori Anda dalam pandangan, bukan sekadar beberapa pesan terakhir.

Ekonomi dari swarm yang gratis dan privat

AgentsRoom dibangun untuk menjalankan agen secara paralel: sepapan penuh, masing-masing pada tugasnya sendiri, masing-masing dengan titik statusnya. Pada provider cloud, paralelisme itu datang dengan meteran yang terus berjalan, karena enam agen bekerja sekaligus berarti enam tagihan token yang menanjak bersama. Pada model Ollama lokal, biaya marginal sebuah token adalah nol. Nyalakan sebuah swarm, biarkan ia berjalan sepanjang sore, dan satu-satunya tagihan adalah listrik.

Diagram batang membandingkan biaya berjalan dari enam agen coding yang bekerja secara paralel. Armada cloud adalah batang tinggi karena setiap dari enam agen dihitung per token. Armada lokal pada model Ollama adalah batang mungil dekat garis dasar karena inferensi lokal tidak punya tagihan per token, sehingga satu-satunya biaya adalah listrik.

Itu mengubah untuk apa paralelisme ada. Ketika setiap agen dihitung, Anda menjatahnya. Ketika mereka gratis, Anda bisa bermurah hati dengan cara yang berguna: satu agen lokal yang mengawasi pergeseran lint, satu yang menjaga changelog tetap mutakhir, satu yang menyusun tes untuk setiap fungsi baru, semuanya berjalan di latar belakang dengan biaya marginal nol sementara agen cloud berbayar Anda tetap dicadangkan untuk pekerjaan yang benar-benar membutuhkannya. Jika menjalankan banyak agen sekaligus adalah hal baru bagi Anda, kami menulis tentang pola ini di menjalankan agen coding secara paralel.

Privasi yang tak perlu Anda bela

Bagi banyak tim, faktor penentu bukan biaya, melainkan ke mana kode itu pergi. Industri yang teregulasi, pekerjaan klien di bawah NDA, basis kode internal yang bagian hukum tak mau biarkan mendekati API pihak ketiga: inferensi lokal menjawab pertanyaan sebelum diajukan, karena model berjalan di mesin dan prompt tidak pernah melintasi jaringan. Tidak ada yang perlu ditinjau, tidak ada perjanjian pemrosesan data, tidak ada klausul residensi data.

AgentsRoom cocok dengan postur itu dari ujung ke ujung. Model lokal menjaga kode Anda tetap di mesin, dan sinkronisasi AgentsRoom sendiri antara desktop dan ponsel Anda dienkripsi ujung-ke-ujung, sehingga mengawasi armada dari seberang ruangan tidak pernah membatalkan privasi yang baru saja dibeli oleh model lokal. Jika kepatuhan adalah alasan Anda membaca ini, kombinasi itulah intinya, dan ia berpadu baik dengan praktik dalam catatan kami tentang vibe coding dan kepatuhan GDPR.

Pola hibrida lalu muncul dengan sendirinya: arahkan yang privat dan yang massal ke model lokal, eskalasikan hanya penalaran yang berat dan tidak sensitif ke cloud, dan biarkan tuas menangani serah terima. Anda mendapatkan kekuatan kelas atas di tempat ia memberi hasil, dan privasi lokal di mana pun selain itu.

Mengapa ini penting

AgentsRoom tidak pernah menjadi klien untuk satu model atau satu vendor. Ia adalah kokpit untuk menjalankan agen yang tepat pada setiap tugas, berdampingan, di bawah satu pasang mata. Ollama memperluas janji itu dengan cara yang spesifik: ia bukan satu agen cloud lagi untuk dipasang, melainkan seluruh ekosistem bobot terbuka, dengan syarat Anda sendiri, berharga nol dan privat secara default.

Lokal untuk yang banyak, cloud untuk yang sedikit, dan sebuah tuas untuk memindahkan agen mana pun di antara keduanya. Unduh AgentsRoom, hubungkan Ollama, dan pekerjakan satu room penuh model open source. Lihat matriks kompatibilitas provider lengkap, atau baca lebih lanjut tentang dukungan multi-provider dan bagaimana peralihan di tengah percakapan menjaga konteks Anda tetap utuh.