Claude Codeを使っていて、月のAPIコストが気になったことはありますか?
筆者が複数のプロジェクトでClaude Codeを使い続けていて気づいたのは、「インターネット接続なし・コスト0円で動くローカルLLMと、高精度なClaudeを用途によって使い分けられれば理想的」ということでした。Qwen 3.5が2026年初頭にリリースされ、OllamaのAnthropicプロキシ機能が整備されたことで、これが現実的な選択肢になりました。
この記事では、Qwen 3.5をOllamaでローカル動作させ、Claude Codeのバックエンドとして接続するハイブリッド開発環境の構築手順を、コピペ可能な設定とともに全公開します。
Qwen 3.5の特徴をざっくり理解する
Alibaba QwenチームがリリースしたQwen 3.5は、Apache 2.0ライセンスの完全オープンウェイトモデルです。ハイブリッドアーキテクチャ(Gated Delta Networks + MoE)を採用し、アクティブパラメータ数を抑えながら高い性能を実現しています。
| モデル | 総パラメータ | アクティブパラメータ | 最低VRAM | コンテキスト |
|---|---|---|---|---|
| Qwen3.5-0.8B | 0.8B | 0.8B | 2GB | 32K |
| Qwen3.5-9B | 9B | 9B | 8GB | 256K |
| Qwen3.5-35B-A3B | 35B | 3B | 8GB | 256K |
| Qwen3.5-72B | 72B | 72B | 48GB | 256K |
| Qwen3.5-397B-A17B | 397B | 17B | 32GB(分散) | 256K |
最終確認日: 2026-04-09(出典: Ollama Qwen3.5、Lushbinary Qwen 3.5 Developer Guide)
特筆すべきは35B-A3Bモデルです。35Bという大きなモデルでありながら、推論時に使われるパラメータは3Bだけ。8GB VRAMのGPUでも動作します。MacBook Proのユニファイドメモリ16GBなら、量子化版であれば快適に動きます。
まず試したい:5分でOllamaとClaude Codeを接続する
Claude CodeはOllamaのAnthropicプロキシAPIを通じてローカルLLMに接続できます。実際に設定してみましょう。
ステップ1: OllamaとQwen 3.5のインストール
# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。
# Ollamaのインストール(macOS)
brew install ollama
# Ollamaサービスの起動
ollama serve &
# Qwen 3.5のダウンロード(M4 Proの場合: 35B-A3B推奨)
# VRAMが8GB以上あれば35B-A3Bが最良のコスト効率
ollama pull qwen3.5:35b-a3b
# 動作確認
ollama run qwen3.5:35b-a3b "def hello_world(): という関数を完成させてください"
動作環境: macOS 14+、Ollama v0.5+、16GB以上のユニファイドメモリ推奨
ポイント: VRAMが8GBしかない場合は `qwen3.5:9b` を選んでください。9Bでも一般的なコーディングタスクには十分な性能があります。
ステップ2: Claude CodeをOllamaに接続する
# Claude CodeのAPIエンドポイントをOllamaに向ける
# OllamaはAnthropicプロキシを localhost:11434 で提供
export ANTHROPIC_BASE_URL="http://localhost:11434"
# または claude_code の設定ファイルで永続化
cat > ~/.claude/settings.json << 'EOF'
{
"env": {
"ANTHROPIC_BASE_URL": "http://localhost:11434",
"ANTHROPIC_API_KEY": "ollama"
},
"model": "qwen3.5:35b-a3b"
}
EOF
# 確認
claude --version
claude "このファイルの型エラーを修正してください" --model qwen3.5:35b-a3b
動作環境: Claude Code v1.0+、Ollama v0.5+(AnthropicプロキシはOllama v0.4以降でサポート)
ハイブリッド運用の3パターン
ローカルLLM単体では性能的に限界があります。実務で効果的なのは、用途によってClaudeとQwen 3.5を使い分けるハイブリッドアプローチです。
| パターン | ローカル(Qwen 3.5) | クラウド(Claude) | コスト感 |
|---|---|---|---|
| コード補完重視 | 日常的な補完・リファクタ | 設計・アーキテクチャ判断 | 80%削減(想定) |
| プライバシー重視 | 機密コード・社内データ処理 | 公開情報のみ | 状況依存 |
| オフライン開発 | 移動中・インターネット不可環境 | オンライン時のみ | 完全無料(ローカル時) |
コスト削減の数値は実際の利用パターンによって大きく変わります。参考として、InfoWorldの記事では「ルーチンタスクの多くをローカルLLMで代替できる」と報告されています(出典: InfoWorld, 2026)。
プロファイル切り替えスクリプト
#!/bin/bash
# switch-llm.sh — ローカル/クラウドを素早く切り替える
# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。
PROFILE=${1:-local}
if [ "$PROFILE" = "local" ]; then
export ANTHROPIC_BASE_URL="http://localhost:11434"
export ANTHROPIC_API_KEY="ollama"
export CLAUDE_MODEL="qwen3.5:35b-a3b"
echo "[LOCAL] Qwen 3.5 35B-A3B on Ollama"
elif [ "$PROFILE" = "cloud" ]; then
export ANTHROPIC_BASE_URL="https://api.anthropic.com"
export ANTHROPIC_API_KEY="$(cat ~/.config/anthropic/api_key)"
export CLAUDE_MODEL="claude-sonnet-4-5"
echo "[CLOUD] Claude Sonnet 4.5"
else
echo "Usage: source switch-llm.sh [local|cloud]"
return 1
fi
# シェルのプロンプトにも表示
export PS1="[$PROFILE] $PS1"
使い方: `source switch-llm.sh local` でローカル切り替え、`source switch-llm.sh cloud` でクラウドに戻す。
実際に使ってみるとわかる限界
正直にお伝えすると、Qwen 3.5のローカル実行には現実的な制約があります。
MacBook M4 Proで35B-A3Bモデルを動かした場合、トークン生成速度は20〜30 tok/s程度(量子化設定による)。Claude Sonnet APIの100〜150 tok/sと比べると体感的に遅さを感じます。また、RTX 5090のようなハイエンドGPU以外では、長い思考チェーンが必要な複雑な問題でClaude系モデルとの差が出やすいです(参照: AkitaOnRails LLMテスト, 2026-04-05)。
筆者が判断基準にしているのは:「外部に出してはいけない情報が含まれるか?」「オフラインで動く必要があるか?」の2点です。YESなら迷わずローカル、それ以外は状況に応じて判断しています。
【要注意】よくある失敗パターンと回避策
失敗1: ローカルモデルでも動作確認なしに本番コードに使う
❌ 「Claudeと同じように使えると思って、そのまま本番コードに適用した」
⭕ 新しいモデルへの切り替え後は必ずユニットテストを走らせてから本番適用する
なぜ重要か: モデルの指示追従性はバージョンや量子化レベルによって異なります。Claudeで動いた設定がQwen 3.5でそのまま動くとは限りません。
失敗2: APIキーを環境変数ではなくコードにハードコードする
❌ `ANTHROPIC_API_KEY = “sk-ant-xxxxx”` をコードに直書き
⭕ `.env` ファイルや `~/.config/` に格納し、`.gitignore` に追加する
失敗3: パフォーマンス問題を見落とす
❌ デフォルト設定のまま使い、「なぜか遅い」と放置する
⭕ `num_gpu_layers` や `num_thread` を適切に設定する。Ollamaのデフォルト設定には90%速度低下を引き起こすバグがある環境も報告されている(Medium: Coding Nexus, 2026)。
より多くのフレームワークを比較したい場合は、AIエージェントツール比較2026年版を参考にしてください。
参考・出典
- Claude Code – Ollama Integration — Ollama公式ドキュメント(参照日: 2026-04-09)
- qwen3.5 — Ollama Library(参照日: 2026-04-09)
- Qwen 3.5 Developer Guide: Benchmarks, Architecture & Integration — Lushbinary(参照日: 2026-04-09)
- I ran Qwen3.5 locally instead of Claude Code — InfoWorld(参照日: 2026-04-09)
- The Local Agent Setup: Claude Code with Gemma and Qwen — Medium(参照日: 2026-04-09)
まとめ:今日から始める3つのアクション
- 今日: OllamaとQwen 3.5:9bをインストールし、Claude Codeに接続する(所要時間: 約10分)
- 今週中: switch-llm.shを設定し、自分のワークロードでローカルとクラウドの使い分けパターンを探る
- 今月中: APIコストと生産性の変化を計測し、最適なハイブリッド比率を決定する
あわせて読みたい:
- AIエージェント構築完全ガイド — エージェント設計の基礎から本番運用まで
- AIエージェントツール比較2026年版 — Dify/n8n/LangChainなど主要ツールの総合比較
著者: 佐藤傑(さとう・すぐる)
株式会社Uravation代表取締役。早稲田大学法学部在学中に生成AIの可能性に魅了され、X(旧Twitter)で活用法を発信(@SuguruKun_ai、フォロワー10万人超)。100社以上の企業向けAI研修・導入支援を展開。著書累計3万部突破。SoftBank IT連載7回執筆(NewsPicks最大1,125ピックス)。
ご質問・ご相談は お問い合わせフォーム からお気軽にどうぞ。