AgentsRoom, 이제 Ollama 지원: 로컬 모델을 클라우드와 나란히 실행

이제 Ollama가 AgentsRoom의 프로바이더가 되었습니다. Llama, Qwen, Gemma, DeepSeek 같은 로컬 오픈소스 모델을 클라우드 에이전트와 나란히 실행하고, 에이전트마다 로컬-클라우드 다이얼을 설정하세요. 대화 중에도 전환할 수 있습니다.

2026년 7월 3일

이제 Ollama가 AgentsRoom에서 지원되는 프로바이더가 되었습니다. 로컬 오픈소스 모델을 어떤 에이전트에든 할당하고, Claude, Codex, Grok Build, Mistral Vibe와 같은 보드에서 실행하며, 컨텍스트를 잃지 않고 대화 중에 전환할 수 있습니다. 이미 익숙한 오픈 웨이트 모델인 Llama, Qwen, Gemma, DeepSeek을 비롯한 여러 모델이 이제 여러분의 room에 합류합니다.

Ollama는 지금까지 우리가 추가해 온 다른 프로바이더와는 조금 다릅니다. 판돈을 걸 에이전트가 하나 더 늘어나는 것이 아닙니다. 오픈소스 모델 카탈로그 전체로 통하는 문이며, 여러분 자신의 하드웨어에서 돌아가고, 토큰당 비용은 0이며, 기본적으로 프라이빗합니다.

Ollama란 무엇인가

Ollama는 대규모 언어 모델을 여러분의 머신에 내려받아 실행하는 무료 오픈소스 런타임입니다. ollama pull qwen3-coder 명령 하나로 모델을 가져옵니다. ollama run은 이를 http://localhost:11434의 로컬 엔드포인트에서 제공합니다. OpenAI 호환 API를 노출하는데, 바로 그 덕분에 코딩 에이전트가 별도의 연결 코드 없이 통신할 수 있습니다. macOS, Windows, Linux에서 동작합니다.

툴 콜링도 지원합니다. 코딩 에이전트가 단순히 대화만 하는 것이 아니라 파일을 편집하고 명령을 실행하는 데 필요한 기능이죠. 모델 라이브러리는 오픈 웨이트의 인명록이라 할 만합니다. Llama, Qwen, Gemma, DeepSeek, Mistral, Phi를 비롯한 모델들이, 노트북부터 워크스테이션 GPU까지 무엇에든 맞는 크기로 준비되어 있습니다.

이 글의 나머지는 두 가지 사실 위에 서 있습니다. 모델은 여러분의 머신에서 돌아가므로, 여러분이 입력하는 내용은 무엇도 네트워크를 벗어나지 않습니다. 그리고 로컬 추론에는 토큰 단위 청구가 없습니다. 아래의 모든 내용은 이 두 가지에서 비롯된 결과입니다.

모두가 받아들이는 로컬 대 클라우드의 선택

지금까지 이 결정은 이분법이었습니다. 클라우드에 올인하면 최전선의 추론력을 얻지만, 모든 프롬프트와 손대는 모든 파일이 서드파티 API로 전송되어 토큰 단위로 계량됩니다. 로컬에 올인하면 프라이버시와 비용 0을 얻지만, 정작 강력한 모델이 필요한 문제에서 그것을 포기하게 됩니다. 대부분의 팀은 한쪽 차선을 택하고 거기서 벗어나지 않습니다.

이 이분법은 거짓입니다. 코드베이스는 한 종류의 작업이 아니기 때문입니다. 마흔 개 파일에 걸쳐 심볼 이름을 바꾸고, 보일러플레이트 테스트를 작성하고, diff를 요약하고, 커밋 메시지를 초안하는 일. 어느 것도 최전선 모델이 필요하지 않고, 그중 상당수는 어디로도 보내고 싶지 않은 코드를 건드립니다. 반면 까다로운 아키텍처 리팩터링 하나에는 큰 엔진이 필요할 수 있습니다. 보일러플레이트에 최전선 클라우드 요금을 내거나, 어려운 작업을 너무 작은 모델로 옭아매는 것은, 이 선택을 전부 아니면 전무로 다룬 대가로 치르는 세금입니다.

AgentsRoom에서 로컬이냐 클라우드냐는 스위치가 아니라 다이얼

AgentsRoom은 이미 모든 에이전트에 각자의 프로바이더와 모델을 부여합니다. Ollama가 추가되었다는 것은, 이제 모든 에이전트가 로컬에서 클라우드에 이르는 다이얼 위 어디에든 자리할 수 있고, 그것을 에이전트마다, 작업마다 설정한다는 뜻입니다.

에이전트마다 하나의 로컬-클라우드 다이얼이라는 제목의 다이어그램. 세 에이전트가 각자 자신의 수평 트랙 위에 있고, 트랙은 왼쪽의 로컬 끝(프라이빗, 무료, 여러분의 머신)에서 오른쪽의 클라우드 끝(최전선, 유료, 호스팅)까지 이어진다. 대량 리팩터링 에이전트는 손잡이가 로컬 끝 가까이에 있고 qwen3-coder:30b를 실행하며, 테스트 작성 에이전트도 로컬 끝 가까이에서 gemma3:12b를 실행하고, 아키텍트 에이전트는 손잡이가 클라우드 끝 가까이에 있고 glm-4.6:cloud를 실행한다.

다이얼은 말 그대로 모델 ID입니다. qwen3-coder:30b를 입력하면 에이전트가 Ollama를 통해 Qwen을 로컬에서, 여러분의 하드웨어에서, 무료로 실행합니다. :cloud 접미사를 붙여 glm-4.6:cloud로 하면, 같은 에이전트가 대신 여러분의 Ollama Cloud 구독을 통해 그 모델을 실행합니다. 접미사 하나가, 설정의 다른 부분은 전혀 건드리지 않고 에이전트를 여러분의 GPU에서 호스팅 GPU로 옮깁니다.

AgentsRoom은 프로바이더를 전환해도 컨텍스트를 유지하므로, 다이얼은 대화 중에도 움직입니다. 에이전트를 로컬 모델로 시작해 작업의 기계적인 부분을 갈아내게 한 다음, 더 깊은 추론이 필요한 한 단계만 클라우드 모델로 전환하세요. AgentsRoom이 손댄 파일, 진행 상황, 세션 활동을 정리한 인수인계 요약을 만들어 주므로, 클라우드 모델은 로컬 모델이 멈춘 바로 그 지점에서 이어받습니다. 어려운 부분이 끝나면 다시 되돌리면 됩니다.

사용 방법

이미 AgentsRoom을 쓰고 있다면 새로 배울 것은 거의 없습니다.

ollama.com에서 Ollama를 설치하고 모델을 가져옵니다: ollama pull qwen3-coder:30b. Qwen Coder 모델은 코드용 기본값으로 강력합니다. 성능이 낮은 머신도 7B는 무리 없이 돌리고, 24GB GPU라면 큰 컨텍스트 윈도우로 30B를 다룹니다.
AgentsRoom 설정에서 Ollama를 프로바이더로 선택합니다. 기본값으로 두어도 되고, 단일 에이전트에만 적용해도 됩니다.
에이전트를 만들고 역할을 부여한 뒤, 모델 칸에 Ollama 모델 ID를 입력합니다. 로컬로 실행하려면 qwen3-coder:30b를, Ollama Cloud로 실행하려면 :cloud를 덧붙입니다.
프롬프트를 보냅니다. AgentsRoom은 여러분의 프로젝트 폴더에서 실제 ollama run 프로세스를 띄우고 출력을 실시간으로 스트리밍합니다. 다른 모든 프로바이더를 구동하는 방식과 똑같습니다.

현장에서 얻은 팁 하나: Ollama는 새 모델에 기본적으로 작은 컨텍스트 윈도우를 할당합니다. 에이전트 작업에서는 이를 키워서, 에이전트가 최근 몇 개의 메시지뿐 아니라 리포지토리의 실질적인 일부를 시야에 담을 수 있게 하세요.

무료이면서 프라이빗한 스웜의 경제학

AgentsRoom은 에이전트를 병렬로 돌리도록 만들어졌습니다. 보드 하나 가득 에이전트가 늘어서고, 저마다 자기 작업을 맡으며, 저마다 상태 점을 답니다. 클라우드 프로바이더에서는 이 병렬성에 계량기가 돌아갑니다. 여섯 에이전트가 동시에 일한다는 것은 여섯 개의 토큰 청구서가 함께 올라간다는 뜻이니까요. 로컬 Ollama 모델에서는 토큰의 한계 비용이 0입니다. 스웜을 띄우고 오후 내내 돌려도, 청구되는 것은 전기 요금뿐입니다.

여섯 개의 코딩 에이전트가 병렬로 일할 때의 구동 비용을 비교한 막대 그래프. 클라우드 플릿은 높은 막대인데, 여섯 에이전트 하나하나가 토큰 단위로 계량되기 때문이다. Ollama 모델을 쓰는 로컬 플릿은 기준선 가까이의 아주 작은 막대인데, 로컬 추론에는 토큰 단위 청구가 없어 유일한 비용이 전기 요금이기 때문이다.

그것은 병렬성의 쓰임을 바꿉니다. 에이전트마다 계량되면 배급하듯 아끼게 됩니다. 무료라면 유용한 방향으로 너그러워질 수 있습니다. lint가 어긋나는지 지켜보는 로컬 에이전트, changelog를 최신으로 유지하는 에이전트, 새 함수마다 테스트를 초안하는 에이전트를 모두 한계 비용 0으로 백그라운드에서 돌리고, 그동안 계량되는 클라우드 에이전트는 정말로 필요한 작업을 위해 남겨 둡니다. 여러 에이전트를 한꺼번에 돌리는 것이 처음이라면, 그 패턴을 코딩 에이전트를 병렬로 실행하기에서 다뤘습니다.

굳이 정당화할 필요 없는 프라이버시

많은 팀에게 결정적 요인은 비용이 아니라 코드가 어디로 가느냐입니다. 규제 산업, NDA 아래의 고객 작업, 법무가 서드파티 API 근처에도 두지 못하게 하는 사내 코드베이스. 로컬 추론은 질문이 나오기도 전에 답을 내놓습니다. 모델이 머신에서 돌아가고 프롬프트가 네트워크를 결코 넘지 않기 때문입니다. 검토할 것도, 데이터 처리 계약도, 데이터 소재지 조항도 없습니다.

하이브리드 패턴의 흐름도, 기본은 로컬이고 필요할 때 클라우드. 들어오는 코딩 작업이 작업별로 경로를 나누는 분류 단계에 도달한다. 대량, 프라이빗, 일상적인 작업은 Ollama의 로컬 모델로 간다. 프라이빗하고 무료이며, 코드가 머신을 결코 떠나지 않은 채로 여러 에이전트를 병렬로 돌린다. 어렵고 민감하지 않은 추론은, 그것이 필요한 한 단계를 위해 최전선의 힘을 지닌 클라우드 모델로 간다. 점선 화살표는 같은 에이전트가 작업 도중 로컬에서 클라우드로 에스컬레이션하고, 그 전환을 가로질러 AgentsRoom이 컨텍스트를 실어 나르는 모습을 보여 준다.

AgentsRoom은 그 태세에 처음부터 끝까지 들어맞습니다. 로컬 모델은 코드를 머신에 붙들어 두고, AgentsRoom 자체의 데스크톱과 휴대폰 사이 동기화는 종단 간 암호화되어 있어, 방 건너편에서 플릿을 감독하더라도 로컬 모델이 방금 마련해 준 프라이버시를 무너뜨리지 않습니다. 여러분이 이 글을 읽는 이유가 컴플라이언스라면, 바로 이 조합이 핵심이며, 바이브 코딩과 GDPR 준수에 관한 글의 실천과도 잘 어울립니다.

그러면 하이브리드 패턴은 저절로 도출됩니다. 프라이빗한 것과 대량인 것은 로컬 모델로 보내고, 어렵고 민감하지 않은 추론만 클라우드로 에스컬레이션하며, 인수인계는 다이얼에 맡깁니다. 최전선의 힘은 그 값을 하는 곳에서 얻고, 그 밖의 모든 곳에서는 로컬의 프라이버시를 얻습니다.

왜 중요한가

AgentsRoom은 한 번도 하나의 모델이나 한 벤더를 위한 클라이언트였던 적이 없습니다. 작업마다 알맞은 에이전트를 나란히, 한 쌍의 눈 아래에서 돌리기 위한 콕핏입니다. Ollama는 그 약속을 특정한 방식으로 넓힙니다. 연결할 클라우드 에이전트가 하나 더 느는 것이 아니라, 오픈 웨이트 생태계 전체가 여러분의 조건으로, 가격 0에, 기본적으로 프라이빗하게 손에 들어옵니다.

다수의 일에는 로컬, 소수의 일에는 클라우드, 그리고 어떤 에이전트든 둘 사이로 옮기는 다이얼. AgentsRoom 다운로드 후 Ollama를 연결하고, 오픈소스 모델로 가득한 room을 일하게 하세요. 전체 프로바이더 호환성 매트릭스를 확인하거나, 멀티 프로바이더 지원과 대화 중 전환이 어떻게 컨텍스트를 온전히 지키는지 더 읽어 보세요.