AIの進化は目覚ましいが、クラウドAPIに依存することへの懸念は増している。データのプライバシー、ランニングコスト、オフライン利用——これらの課題を一挙に解決するのが「Ollama」だ。ローカル環境でLLMを動かすためのオープンソースツールとして、2026年には開発者コミュニティで事実上のスタンダードとなった。
Ollamaとは何か
Ollamaは、大規模言語モデル(LLM)をローカルマシン上で簡単に実行するためのオープンソースツールだ。Docker的な思想でLLMを管理できる。
| 項目 | 内容 |
|---|---|
| 開発元 | Ollama Inc.(2023年設立) |
| ライセンス | MIT License |
| 対応OS | macOS / Windows / Linux / Docker |
| 対応GPU | NVIDIA CUDA / Apple Metal / AMD ROCm |
| モデル数 | 200+(公式ライブラリ) |
| API互換 | OpenAI互換REST API |
ollama run llama3.3 の一行で、Meta の最新LLMがローカルで動く。クラウドAPIとの最大の違いは、データが一切外部に送信されないことだ。
なぜ今ローカルLLMなのか
クラウドLLMの月額コストは、ヘビーユーザーなら月$100を超えることも珍しくない。ローカルLLMにはその定額コストが存在しない。
| 比較軸 | クラウドLLM | ローカルLLM(Ollama) |
|---|---|---|
| 初期コスト | $0 | GPU購入費(既存PCなら$0) |
| ランニングコスト | $20〜$200+/月 | 電気代のみ |
| データプライバシー | プロバイダーに送信 | 完全ローカル |
| オフライン利用 | 不可 | 可能 |
| レイテンシ | ネットワーク依存 | ローカル処理で低遅延 |
| カスタマイズ | 限定的 | Modelfileで自由自在 |
医療、法律、金融など機密データを扱う現場では、クラウドに送れないデータをAIで処理する需要が急増している。
Ollamaの始め方 — 5分でセットアップ
ステップ1: インストール
macOSなら Homebrew で一発だ。
brew install ollama
Windows / Linux は公式サイトからインストーラーをダウンロードする。
ステップ2: モデルのダウンロードと実行
ollama run llama3.3 # Meta Llama 3.3(8B)
ollama run gemma3 # Google Gemma 3
ollama run deepseek-r1 # DeepSeek R1(推論特化)
ollama run phi-4 # Microsoft Phi-4(軽量高性能)
ステップ3: API経由で利用
OllamaはOpenAI互換のREST APIを自動で立ち上げる。
curl http://localhost:11434/v1/chat/completions \
-d '{"model":"llama3.3","messages":[{"role":"user","content":"Hello"}]}'
おすすめモデルガイド — 用途別の選び方
| モデル | パラメータ | VRAM目安 | 得意分野 |
|---|---|---|---|
| Llama 3.3 | 8B / 70B | 6GB / 40GB | 汎用・日本語対応 |
| DeepSeek-R1 | 7B / 32B | 5GB / 20GB | 数学・推論・コード |
| Gemma 3 | 4B / 12B / 27B | 3GB / 8GB / 18GB | 多言語・バランス型 |
| Phi-4 | 14B | 10GB | 推論・軽量高性能 |
| CodeLlama | 7B / 34B | 5GB / 22GB | コード生成特化 |
| Mistral | 7B | 5GB | 欧州言語・高速 |
8GB VRAMのノートPCでも、7B〜8Bクラスのモデルは快適に動作する。M2/M3 Macなら統合メモリのおかげで70Bクラスも実用的だ。
GPU別パフォーマンスガイド
| GPU | VRAM | 推奨モデルサイズ | 推定速度(tok/s) |
|---|---|---|---|
| RTX 4060 | 8GB | 〜8B | 40-60 |
| RTX 4070 Ti | 12GB | 〜14B | 50-70 |
| RTX 4090 | 24GB | 〜34B | 60-90 |
| M2 Pro | 16GB共有 | 〜14B | 30-50 |
| M3 Max | 48GB共有 | 〜70B | 25-40 |
| Apple M4 Ultra | 192GB共有 | 〜405B | 20-35 |
NVIDIAユーザーはCUDAドライバの最新化が推奨される。Apple Silicon は Metal が自動で有効化される。
Ollamaの活用パターン
1. 開発環境でのAIアシスタント
VS Code、Cursor、Continueなど主要エディタとOllamaを連携すれば、コード補完やリファクタリングを完全ローカルで実行できる。
2. RAG(検索拡張生成)パイプライン
LangChain や LlamaIndex と組み合わせ、社内ドキュメントを検索しながら回答するRAGシステムをローカルに構築できる。APIコストゼロで社内ナレッジベースが作れる。
3. Modelfileによるカスタマイズ
Dockerfileのように、モデルの振る舞いをカスタム定義できる。
FROM llama3.3
SYSTEM "あなたはTypeScript専門のシニアエンジニアです。コードレビューを日本語で行います。"
PARAMETER temperature 0.3
PARAMETER num_ctx 8192
Ollamaの限界と注意点
| 限界 | 詳細 |
|---|---|
| 最大性能はクラウドに劣る | GPT-5やClaude Opus 4にはローカル8Bモデルでは及ばない |
| GPU依存 | CPU推論は実用的な速度が出にくい |
| マルチモーダル対応は発展途上 | 画像・音声はLLaVAなど限定的なモデルのみ |
| 日本語品質にばらつき | モデルによって日本語の流暢さに差がある |
ローカルLLMは「クラウドの代替」ではなく「クラウドとの使い分け」が正解だ。機密データはローカル、最高精度が必要な場面はクラウドAPIという二刀流が最適解だろう。
ローカルAIの民主化は、あなたの手の中に
Ollamaは「AI=クラウドサービス」という前提を覆した。手元のマシンで大規模言語モデルを動かす体験は、プログラミングにおけるローカル開発環境の構築と同じくらい基礎的なスキルになりつつある。
あなたのマシンのGPUは、まだ眠ったままだろうか?
