AgentsRoomがOllamaに対応：ローカルモデルをクラウドの隣で実行

OllamaがAgentsRoomのプロバイダーになりました。Llama、Qwen、Gemma、DeepSeekといったローカルのオープンソースモデルをクラウドエージェントと並べて実行し、エージェントごとにローカルかクラウドかのダイヤルを設定できます。会話の途中で切り替えも可能です。

2026年7月3日

OllamaがAgentsRoomの対応プロバイダーになりました。ローカルのオープンソースモデルをどのエージェントにも割り当てられ、Claude、Codex、Grok Build、Mistral Vibeと同じボードで実行でき、コンテキストを失うことなく会話の途中で切り替えられます。すでにおなじみのオープンウェイトモデル、Llama、Qwen、Gemma、DeepSeekといった面々が、あなたのroomに勢揃いします。

Ollamaは、これまで追加してきた他のプロバイダーとは少し性格が異なります。賭ける対象がもう1つ増える、という話ではありません。オープンソースモデルのカタログ全体への入り口であり、あなた自身のハードウェア上で動き、トークンあたりのコストはゼロ、そしてデフォルトでプライベートです。

Ollamaとは

Ollamaは、大規模言語モデルを自分のマシンにダウンロードして実行する、無料かつオープンソースのランタイムです。ollama pull qwen3-coderというコマンド1つでモデルを取得できます。ollama runは、それをhttp://localhost:11434のローカルエンドポイントで提供します。OpenAI互換のAPIを公開しており、まさにそのおかげでコーディングエージェントは特別なつなぎ込みなしで通信できます。macOS、Windows、Linuxに対応しています。

ツールコーリングにも対応しています。これは、コーディングエージェントが単にチャットするだけでなく、ファイルを編集しコマンドを実行するために必要な機能です。モデルライブラリはオープンウェイトの名鑑さながらで、Llama、Qwen、Gemma、DeepSeek、Mistral、Phiなどが揃い、ラップトップからワークステーションのGPUまであらゆる環境に合うサイズが用意されています。

この記事の残りは、2つの事実に支えられています。モデルはあなたのマシン上で動くので、あなたが入力した内容はネットワークに一切出ていきません。そしてローカル推論にはトークン単位の請求がありません。以下に書くことは、すべてこの2点から導かれる帰結です。

誰もが受け入れているローカルかクラウドかの選択

これまで、この判断は二者択一でした。クラウドに全振りすれば最前線の推論力が手に入りますが、あらゆるプロンプトと触れるファイルはすべてサードパーティのAPIに送られ、トークン単位で課金されます。ローカルに全振りすればプライバシーとコストゼロが手に入りますが、本当に必要な難問に対して最強のモデルを諦めることになります。多くのチームは片方の車線を選び、そこから動きません。

この二択は偽物です。なぜなら、コードベースは1種類の作業ではないからです。40個のファイルにまたがってシンボルをリネームする、定型的なテストを書く、diffを要約する、コミットメッセージを起草する。どれも最前線のモデルを必要とせず、その多くは、どこにも送りたくないコードに触れる作業です。一方で、厄介なアーキテクチャのリファクタリングには、大きなエンジンが必要になることもあります。定型作業に最前線クラウドの料金を払うのも、難しいタスクを小さすぎるモデルで縛るのも、この選択を全か無かで扱ったことに対して払う税金です。

AgentsRoomでは、ローカルかクラウドかはスイッチではなくダイヤル

AgentsRoomは、もともとすべてのエージェントにそれぞれのプロバイダーとモデルを持たせています。Ollamaが加わったことで、いまやどのエージェントもローカルからクラウドまでのダイヤル上の好きな位置に置けるようになり、しかもエージェントごと、タスクごとに設定できます。

「エージェントごとに1本のローカルからクラウドへのダイヤル」と題した図。3つのエージェントがそれぞれ自分の水平トラック上にあり、トラックは左端のローカル（プライベート、無料、あなたのマシン上）から右端のクラウド（最前線、有料、ホスト型）まで伸びている。一括リファクタリングのエージェントはつまみがローカル端の近くにあり、qwen3-coder:30bを実行。テスト作成のエージェントもローカル端の近くでgemma3:12bを実行し、アーキテクトのエージェントはつまみがクラウド端の近くにあり、glm-4.6:cloudを実行している。

ダイヤルとは、文字どおりモデルIDのことです。qwen3-coder:30bと入力すれば、エージェントはOllama経由でQwenをローカルで、あなたのハードウェア上で、無料で実行します。:cloudという接尾辞を付けてglm-4.6:cloudとすれば、同じエージェントが代わりにあなたのOllama Cloudのサブスクリプション経由でそのモデルを実行します。接尾辞1つで、設定の他の部分には一切触れずに、エージェントをあなたのGPUからホスト型のGPUへ移せます。

AgentsRoomはプロバイダーを切り替えてもコンテキストを保持するため、ダイヤルは会話の途中でも動かせます。エージェントをローカルモデルで起動し、タスクの機械的な部分をこなさせたうえで、より深い推論が必要な1ステップだけクラウドモデルに切り替える。AgentsRoomは、触れたファイル、進捗、セッションの活動をまとめた引き継ぎサマリーを作成するので、クラウドモデルはローカルモデルが止まった地点からそのまま引き継ぎます。難所を越えたら、また戻せばよいのです。

使い方

すでにAgentsRoomを使っているなら、新しく覚えることはほとんどありません。

ollama.comからOllamaをインストールし、モデルを取得します：ollama pull qwen3-coder:30b。Qwen Coderモデルは、コード用のデフォルトとして有力です。非力なマシンでも7Bなら余裕で動き、24GBのGPUなら大きなコンテキストウィンドウで30Bを扱えます。
AgentsRoomの設定で、Ollamaをプロバイダーとして選びます。デフォルトにしても、単一のエージェントだけに設定しても構いません。
エージェントを作成して役割を与え、モデル欄にOllamaのモデルIDを入力します。ローカルで実行するならqwen3-coder:30b、Ollama Cloud経由で実行するなら:cloudを付け加えます。
プロンプトを送ります。AgentsRoomは、あなたのプロジェクトフォルダで実際のollama runプロセスを起動し、出力をライブでストリーミングします。他のすべてのプロバイダーを動かすのと同じやり方です。

現場からのヒントを1つ。Ollamaは新しいモデルに対して、デフォルトで小さなコンテキストウィンドウを割り当てます。エージェント的な作業では、これを大きくして、エージェントが直近の数メッセージだけでなく、リポジトリのまとまった一部分を視野に保てるようにしましょう。

無料でプライベートなスウォームの経済学

AgentsRoomは、エージェントを並列で動かすために作られています。ボード一面にエージェントが並び、それぞれが自分のタスクを持ち、それぞれにステータスのドットが付きます。クラウドのプロバイダーでは、この並列性にメーターが回り続けます。6つのエージェントが同時に働くということは、6つのトークン請求が一緒にせり上がるということだからです。ローカルのOllamaモデルなら、トークンの限界費用はゼロです。スウォームを立ち上げ、午後いっぱい走らせても、請求されるのは電気代だけです。

6つのコーディングエージェントを並列で動かしたときの稼働コストを比較した棒グラフ。クラウドのフリートは高い棒になる。6つのエージェント1つ1つがトークン単位で課金されるからだ。Ollamaモデルによるローカルのフリートはベースラインのすぐ上の小さな棒。ローカル推論にはトークン単位の請求がなく、唯一のコストが電気代だからだ。

これは、並列性の意味を変えます。各エージェントに課金されるなら、あなたはそれを配給制にします。無料なら、役に立つ形で気前よく振る舞えます。lintのずれを見張るローカルエージェント、changelogを最新に保つエージェント、新しい関数ごとにテストを起草するエージェント。これらすべてを限界費用ゼロでバックグラウンドに走らせ、その一方で、課金されるクラウドエージェントは本当にそれを必要とする作業のために取っておく。たくさんのエージェントを同時に動かすのが初めてなら、その手法についてコーディングエージェントを並列で走らせるで書きました。

正当化する必要のないプライバシー

多くのチームにとって決め手はコストではなく、コードがどこへ行くかです。規制産業、NDAのもとでの受託業務、法務がサードパーティのAPIに近づけさせない社内コードベース。ローカル推論は、問いが発せられる前に答えを出します。モデルはマシン上で動き、プロンプトはネットワークを一切越えないからです。レビューすべきものは何もなく、データ処理契約も、データ保管地の条項もありません。

ハイブリッド方式のフロー図。デフォルトはローカル、必要に応じてクラウド。入ってくるコーディング作業は、タスクごとに振り分けるトリアージのステップに届く。大量・プライベート・定型の作業は、Ollama上のローカルモデルへ。プライベートで無料、多数のエージェントを並列で動かし、コードはマシンから一切出ない。難しく機密性のない推論は、それを必要とする1ステップのために最前線のパワーを持つクラウドモデルへ。破線の矢印は、同じエージェントがタスクの途中でローカルからクラウドへエスカレーションし、切り替えをまたいでAgentsRoomがコンテキストを運ぶ様子を示している。

AgentsRoomは、この姿勢に端から端まで沿っています。ローカルモデルはコードをマシン上にとどめ、AgentsRoom自身のデスクトップとスマホの間の同期はエンドツーエンドで暗号化されています。だから、部屋の向こうからフリートを監督しても、ローカルモデルがたった今もたらしたプライバシーを損なうことはありません。あなたがこの記事を読んでいる理由がコンプライアンスなら、まさにこの組み合わせが肝であり、バイブコーディングとGDPR遵守についての記事にある実践とも相性が良いはずです。

ハイブリッド方式は、そこから自然に導かれます。プライベートなものと大量のものはローカルモデルへ振り分け、難しく機密性のない推論だけをクラウドへエスカレーションし、引き継ぎはダイヤルに任せる。最前線のパワーは、その価値を発揮する場所で得られ、それ以外のあらゆる場所ではローカルのプライバシーが得られます。

なぜ重要なのか

AgentsRoomは、これまで一度も特定のモデルやベンダー専用のクライアントであったことはありません。タスクごとに最適なエージェントを、並べて、ひと組の目の下で走らせるためのコックピットです。Ollamaは、この約束を具体的な形で押し広げます。組み込むべきクラウドエージェントがもう1つ増えるのではなく、オープンウェイトのエコシステム全体が、あなたの条件で、価格ゼロ、デフォルトでプライベートに手に入るのです。

多数の作業にはローカル、少数の作業にはクラウド、そしてどのエージェントも両者の間を動かせるダイヤル。AgentsRoomをダウンロードしてOllamaをつなぎ、オープンソースモデルで一杯のroomを働かせましょう。プロバイダー互換性マトリクスの全体を確認するか、マルチプロバイダー対応と、会話の途中での切り替えがどのようにコンテキストを保つのかについてさらにお読みください。