AIエージェント入門

Claude Code × Qwen 3.5|ローカルLLMとのハイブリッド開発法

Claude Code × Qwen 3.5|ローカルLLMとのハイブリッド開発法

この記事の結論

Qwen 3.5をOllamaでローカル動作させ、Claude Codeのエンドポイントとして接続するハイブリッド開発環境の構築法を解説。APIコスト削減と高速レスポンスを両立する実践的な設定手順を紹介します。

Claude Codeを使っていて、月のAPIコストが気になったことはありますか?

筆者が複数のプロジェクトでClaude Codeを使い続けていて気づいたのは、「インターネット接続なし・コスト0円で動くローカルLLMと、高精度なClaudeを用途によって使い分けられれば理想的」ということでした。Qwen 3.5が2026年初頭にリリースされ、OllamaのAnthropicプロキシ機能が整備されたことで、これが現実的な選択肢になりました。

この記事では、Qwen 3.5をOllamaでローカル動作させ、Claude Codeのバックエンドとして接続するハイブリッド開発環境の構築手順を、コピペ可能な設定とともに全公開します。

Qwen 3.5の特徴をざっくり理解する

Alibaba QwenチームがリリースしたQwen 3.5は、Apache 2.0ライセンスの完全オープンウェイトモデルです。ハイブリッドアーキテクチャ(Gated Delta Networks + MoE)を採用し、アクティブパラメータ数を抑えながら高い性能を実現しています。

モデル 総パラメータ アクティブパラメータ 最低VRAM コンテキスト
Qwen3.5-0.8B 0.8B 0.8B 2GB 32K
Qwen3.5-9B 9B 9B 8GB 256K
Qwen3.5-35B-A3B 35B 3B 8GB 256K
Qwen3.5-72B 72B 72B 48GB 256K
Qwen3.5-397B-A17B 397B 17B 32GB(分散) 256K

最終確認日: 2026-04-09(出典: Ollama Qwen3.5Lushbinary Qwen 3.5 Developer Guide

特筆すべきは35B-A3Bモデルです。35Bという大きなモデルでありながら、推論時に使われるパラメータは3Bだけ。8GB VRAMのGPUでも動作します。MacBook Proのユニファイドメモリ16GBなら、量子化版であれば快適に動きます。

まず試したい:5分でOllamaとClaude Codeを接続する

Claude CodeはOllamaのAnthropicプロキシAPIを通じてローカルLLMに接続できます。実際に設定してみましょう。

ステップ1: OllamaとQwen 3.5のインストール

# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。

# Ollamaのインストール(macOS)
brew install ollama

# Ollamaサービスの起動
ollama serve &

# Qwen 3.5のダウンロード(M4 Proの場合: 35B-A3B推奨)
# VRAMが8GB以上あれば35B-A3Bが最良のコスト効率
ollama pull qwen3.5:35b-a3b

# 動作確認
ollama run qwen3.5:35b-a3b "def hello_world(): という関数を完成させてください"

動作環境: macOS 14+、Ollama v0.5+、16GB以上のユニファイドメモリ推奨

ポイント: VRAMが8GBしかない場合は `qwen3.5:9b` を選んでください。9Bでも一般的なコーディングタスクには十分な性能があります。

ステップ2: Claude CodeをOllamaに接続する

# Claude CodeのAPIエンドポイントをOllamaに向ける
# OllamaはAnthropicプロキシを localhost:11434 で提供

export ANTHROPIC_BASE_URL="http://localhost:11434"

# または claude_code の設定ファイルで永続化
cat > ~/.claude/settings.json << 'EOF'
{
  "env": {
    "ANTHROPIC_BASE_URL": "http://localhost:11434",
    "ANTHROPIC_API_KEY": "ollama"
  },
  "model": "qwen3.5:35b-a3b"
}
EOF

# 確認
claude --version
claude "このファイルの型エラーを修正してください" --model qwen3.5:35b-a3b

動作環境: Claude Code v1.0+、Ollama v0.5+(AnthropicプロキシはOllama v0.4以降でサポート)

ハイブリッド運用の3パターン

ローカルLLM単体では性能的に限界があります。実務で効果的なのは、用途によってClaudeとQwen 3.5を使い分けるハイブリッドアプローチです。

パターン ローカル(Qwen 3.5) クラウド(Claude) コスト感
コード補完重視 日常的な補完・リファクタ 設計・アーキテクチャ判断 80%削減(想定)
プライバシー重視 機密コード・社内データ処理 公開情報のみ 状況依存
オフライン開発 移動中・インターネット不可環境 オンライン時のみ 完全無料(ローカル時)

コスト削減の数値は実際の利用パターンによって大きく変わります。参考として、InfoWorldの記事では「ルーチンタスクの多くをローカルLLMで代替できる」と報告されています(出典: InfoWorld, 2026)。

プロファイル切り替えスクリプト

#!/bin/bash
# switch-llm.sh — ローカル/クラウドを素早く切り替える
# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。

PROFILE=${1:-local}

if [ "$PROFILE" = "local" ]; then
  export ANTHROPIC_BASE_URL="http://localhost:11434"
  export ANTHROPIC_API_KEY="ollama"
  export CLAUDE_MODEL="qwen3.5:35b-a3b"
  echo "[LOCAL] Qwen 3.5 35B-A3B on Ollama"
elif [ "$PROFILE" = "cloud" ]; then
  export ANTHROPIC_BASE_URL="https://api.anthropic.com"
  export ANTHROPIC_API_KEY="$(cat ~/.config/anthropic/api_key)"
  export CLAUDE_MODEL="claude-sonnet-4-5"
  echo "[CLOUD] Claude Sonnet 4.5"
else
  echo "Usage: source switch-llm.sh [local|cloud]"
  return 1
fi

# シェルのプロンプトにも表示
export PS1="[$PROFILE] $PS1"

使い方: `source switch-llm.sh local` でローカル切り替え、`source switch-llm.sh cloud` でクラウドに戻す。

実際に使ってみるとわかる限界

正直にお伝えすると、Qwen 3.5のローカル実行には現実的な制約があります。

MacBook M4 Proで35B-A3Bモデルを動かした場合、トークン生成速度は20〜30 tok/s程度(量子化設定による)。Claude Sonnet APIの100〜150 tok/sと比べると体感的に遅さを感じます。また、RTX 5090のようなハイエンドGPU以外では、長い思考チェーンが必要な複雑な問題でClaude系モデルとの差が出やすいです(参照: AkitaOnRails LLMテスト, 2026-04-05)。

筆者が判断基準にしているのは:「外部に出してはいけない情報が含まれるか?」「オフラインで動く必要があるか?」の2点です。YESなら迷わずローカル、それ以外は状況に応じて判断しています。

【要注意】よくある失敗パターンと回避策

失敗1: ローカルモデルでも動作確認なしに本番コードに使う

❌ 「Claudeと同じように使えると思って、そのまま本番コードに適用した」

⭕ 新しいモデルへの切り替え後は必ずユニットテストを走らせてから本番適用する

なぜ重要か: モデルの指示追従性はバージョンや量子化レベルによって異なります。Claudeで動いた設定がQwen 3.5でそのまま動くとは限りません。

失敗2: APIキーを環境変数ではなくコードにハードコードする

❌ `ANTHROPIC_API_KEY = “sk-ant-xxxxx”` をコードに直書き

⭕ `.env` ファイルや `~/.config/` に格納し、`.gitignore` に追加する

失敗3: パフォーマンス問題を見落とす

❌ デフォルト設定のまま使い、「なぜか遅い」と放置する

⭕ `num_gpu_layers` や `num_thread` を適切に設定する。Ollamaのデフォルト設定には90%速度低下を引き起こすバグがある環境も報告されている(Medium: Coding Nexus, 2026)。

より多くのフレームワークを比較したい場合は、AIエージェントツール比較2026年版を参考にしてください。

参考・出典


まとめ:今日から始める3つのアクション

  1. 今日: OllamaとQwen 3.5:9bをインストールし、Claude Codeに接続する(所要時間: 約10分)
  2. 今週中: switch-llm.shを設定し、自分のワークロードでローカルとクラウドの使い分けパターンを探る
  3. 今月中: APIコストと生産性の変化を計測し、最適なハイブリッド比率を決定する

あわせて読みたい:


著者: 佐藤傑(さとう・すぐる)
株式会社Uravation代表取締役。早稲田大学法学部在学中に生成AIの可能性に魅了され、X(旧Twitter)で活用法を発信(@SuguruKun_ai、フォロワー10万人超)。100社以上の企業向けAI研修・導入支援を展開。著書累計3万部突破。SoftBank IT連載7回執筆(NewsPicks最大1,125ピックス)。

ご質問・ご相談は お問い合わせフォーム からお気軽にどうぞ。

Need help moving from reading to rollout?

この記事を読んで導入イメージが固まってきた方へ

Uravationでは、AIエージェントの要件整理、PoC設計、社内導入、研修まで一気通貫で支援しています。

この記事をシェア

X Facebook LINE

※ 本記事の情報は2026年4月時点のものです。サービスの料金・仕様は変更される可能性があります。最新情報は各サービスの公式サイトをご確認ください。

関連記事