「小型モデルって、結局どこまで使えるの?」
AIエージェントの開発現場でよく聞く疑問です。GPT-4oやClaude 3.5 Sonnetは性能が高い。でもAPI料金はかさむし、機密データをクラウドに送りたくない。手元で動く賢いモデルがあれば――そう思いながら妥協してきた人は多いはずです。
2026年3月2日、Alibaba CloudのQwenチームがその常識を揺さぶるモデルを公開しました。Qwen3.5 Small Model Series——0.8B、2B、4B、9Bの4バリアントからなるオープンソース小型モデル群です。なかでも注目を集めているのが9Bモデルで、なんとパラメータ数が13倍以上あるOpenAIのgpt-oss-120Bを複数のベンチマークで上回りました。16GBのRAMがあれば手元で動かせます。
この記事では、Qwen3.5 Smallの技術仕様・ベンチマーク結果・Ollamaでのローカル実行方法・企業での活用シナリオを、実際に確認したデータをもとに解説します。「どのモデルを選ぶか」の判断軸も最後に提示するので、ぜひ最後まで読んでみてください。
Qwen3.5 Smallとは何か——4つのモデルバリアント
Qwen3.5 Small Model Seriesは、Apache 2.0ライセンスで公開されたオープンウェイトモデル群です。商用・非商用・改変・再配布すべてが無償で許可されています。Hugging FaceおよびModelScopeから入手できます。
共通仕様として、全モデルが以下を持ちます。
- 201言語対応(Qwen3から119言語→201言語に拡大、語彙数も150K→250Kに増加)
- ネイティブマルチモーダル——テキスト・画像・動画を統一アーキテクチャで処理
- コンテキスト長262K(最大1Mまで拡張可能)
- Gated DeltaNetハイブリッドアテンション——線形アテンションと標準アテンションを組み合わせた独自設計
4バリアントの詳細は以下の通りです。
| モデル | パラメータ | 量子化後サイズ(Q4) | コンテキスト長 | 主な用途 |
|---|---|---|---|---|
| Qwen3.5-0.8B | 0.8B | 約1.0GB | 262K(最大1M) | モバイル・IoT・エッジデバイス |
| Qwen3.5-2B | 2B | 約2.7GB | 262K(最大1M) | エッジ・軽量エージェント・研究 |
| Qwen3.5-4B | 4B | 約3.4GB | 262K(最大1M) | 5B以下クラスで最高水準の性能 |
| Qwen3.5-9B | 9B | 約6.6GB | 262K(最大1M) | 10B以下クラスで最高水準。推論・コード生成 |
AIエージェントの基本設計やモデル選定の考え方については、AIエージェント構築完全ガイドで体系的にまとめています。小型モデルを活かすアーキテクチャ設計と合わせて参照してください。
なぜ9Bが120Bを超えられるのか——Gated DeltaNetの仕組み
「パラメータが少ないのに性能が高い」という現象には、アーキテクチャの革新が関係しています。Qwen3.5が採用するGated DeltaNetは、線形アテンション機構のひとつです。
通常のTransformerは全トークン間のアテンションを計算するため、シーケンス長に対してO(n²)の計算コストがかかります。Gated DeltaNetは、固定サイズのステート行列(ヘッド次元の二乗、例: 128×128)を維持して新トークンを逐次更新する設計です。計算コストはO(n·d²)——シーケンス長に対して線形になります。
Qwen3.5では、この線形アテンション(Gated DeltaNet)と標準のGated Attentionをハイブリッドで組み合わせています。長文の流れを効率的に追いながら、重要部分では通常のアテンション精度を保つ設計です。結果として、長いコンテキストでも省メモリ・高速に動作します。
また、語彙数が250K(Qwen3は150K)に増えたことで、多言語テキストのエンコード・デコード効率が言語によって10〜60%向上しています。日本語を含む非ラテン文字言語ではこの効率化がとくに効いてきます。
ベンチマーク結果——9Bがgpt-oss-120Bを超えたデータ
Alibaba公式発表および複数の独立メディアが確認したベンチマーク結果を示します(測定日: 2026年3月、ソース: Alibaba Cloud公式ブログ、VentureBeat検証)。
| ベンチマーク | Qwen3.5-9B | gpt-oss-120B(13倍のパラメータ数) | 判定 |
|---|---|---|---|
| MMLU-Pro(知識・推論) | 82.5 | 80.8 | 9B勝利 |
| GPQA Diamond(専門科学) | 81.7 | 80.1 | 9B勝利 |
| MMMLU(多言語理解) | 81.2 | 78.2 | 9B勝利 |
| MMMU-Pro(視覚推論) | 70.1 | —(非対応) | 9B(比較不可) |
| 複雑な推論・長文コード生成 | (参考値) | 依然優位 | 120B勝利 |
重要な留意点: ベンチマークでの優位はすべてのタスクに当てはまりません。複雑な多段階推論や長大なコード生成では、gpt-oss-120Bが依然として優位とされています(XDA Developers, 2026年3月)。「ベンチマークが高い = すべてのタスクで勝る」ではないことを念頭に置いてください。
他の小型モデルとの比較も見てみましょう。
| モデル | パラメータ | マルチモーダル | 多言語 | Qwen3.5-9Bとの比較 |
|---|---|---|---|---|
| Llama 3.2(Meta) | 1B / 3B | 一部対応 | 限定的 | Qwen3.5が多言語・視覚で優位 |
| Gemma 3(Google) | 1B / 4B / 12B | 一部対応 | 対応 | 9Bが総合ベンチで上回る、VRAMも少ない |
| Phi-4-mini(Microsoft) | 14B | 非対応 | 対応 | 9Bより50%大きくマルチモーダル非対応 |
| Qwen3.5-9B | 9B | ネイティブ対応 | 201言語 | —— |
Ollamaでローカル実行——環境構築から実行まで
ここからは実際に手を動かせるセットアップ手順を示します。Ollamaを使うのが最も手軽です。
ハードウェア要件の確認
| モデル | 最低RAM(CPU推論) | 推奨VRAM(GPU推論) | ストレージ |
|---|---|---|---|
| Qwen3.5-0.8B | 4GB | 2GB+ | 約1.5GB |
| Qwen3.5-2B | 8GB | 4GB+ | 約3GB |
| Qwen3.5-4B | 8GB | 6GB+ | 約4GB |
| Qwen3.5-9B | 16GB | 8GB+(推奨: RTX 3060以上 / Apple M1以上) | 約7GB |
Ollamaのインストールと実行
まずOllamaをインストールします(macOS・Linux・Windowsに対応)。
# macOS(Homebrew経由)
brew install ollama
# Linux(公式インストールスクリプト)
curl -fsSL https://ollama.com/install.sh | sh
# Windows: https://ollama.com からインストーラーをダウンロード
インストール後、モデルを起動します。初回は自動ダウンロードが始まります。
# 各モデルの起動コマンド
ollama run qwen3.5:9b # 9B(推奨。要16GB RAM)
ollama run qwen3.5:4b # 4B(8GB RAMで動作)
ollama run qwen3.5:2b # 2B(軽量・高速)
ollama run qwen3.5:0.8b # 0.8B(モバイル向け最小構成)
起動後は対話型チャットが始まります。日本語で直接話しかけて問題ありません。
# 動作確認(Ollamaサーバーに直接APIリクエスト)
curl http://localhost:11434/api/generate
-d '{
"model": "qwen3.5:9b",
"prompt": "AIエージェントの設計で最も重要な3つのポイントを教えてください",
"stream": false
}'
動作環境: Ollama 0.6.x以上、macOS 13+ / Ubuntu 22.04+ / Windows 11
重要な制限事項: 2026年3月時点で、OllamaはQwen3.5のマルチモーダル(画像・動画入力)には対応していません。画像・動画を使いたい場合はllama.cppまたはHugging Faceのtransformersライブラリを使用してください。
# llama.cppでマルチモーダル推論(画像入力)
# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。
# 必要パッケージ: pip install llama-cpp-python transformers torch
# 動作環境: Python 3.11+, llama-cpp-python>=0.2.90
from llama_cpp import Llama
from llama_cpp.llama_chat_format import Qwen3_5MultimodalChatHandler
# マルチモーダル対応のハンドラーを設定
chat_handler = Qwen3_5MultimodalChatHandler(
clip_model_path="./Qwen3.5-9B-Instruct-mmproj.gguf"
)
llm = Llama(
model_path="./Qwen3.5-9B-Instruct.Q4_K_M.gguf",
chat_handler=chat_handler,
n_ctx=4096,
verbose=False
)
# 画像ファイルをBase64エンコードして渡す
import base64
with open("./image.jpg", "rb") as f:
image_b64 = base64.b64encode(f.read()).decode()
response = llm.create_chat_completion(
messages=[{
"role": "user",
"content": [
{"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_b64}"}},
{"type": "text", "text": "この画像に何が写っていますか?日本語で答えてください。"}
]
}]
)
print(response["choices"][0]["message"]["content"])
Pythonスクリプトから利用する——OpenAI互換APIで既存コードを使い回す
OllamaはOpenai互換のAPIエンドポイントを提供しています。既存のopenaiライブラリコードをほぼそのまま流用できます。
# OpenAI SDKを使ってローカルQwen3.5を呼び出す
# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。
# 動作環境: Python 3.11+, openai>=1.30.0
# 必要パッケージ: pip install openai
from openai import OpenAI
# ベースURLをOllamaのローカルエンドポイントに向ける
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # Ollamaはキー不要だが形式上必要
)
response = client.chat.completions.create(
model="qwen3.5:9b",
messages=[
{
"role": "system",
"content": "あなたはAIエージェント開発の専門家です。具体的で実践的なアドバイスをしてください。"
},
{
"role": "user",
"content": "社内の契約書チェック自動化エージェントを作るときの注意点を3つ教えてください。"
}
],
temperature=0.7,
max_tokens=1024
)
print(response.choices[0].message.content)
このコードのmodelパラメータを変えるだけで、クラウドモデル(GPT-4o等)とローカルモデルの切り替えが可能です。開発環境ではローカルQwen3.5、本番はGPT-4oという運用が低コストで実現できます。
企業での活用シナリオ——どこで使えるか
事例区分: 想定シナリオ
以下は複数の企業AIエージェント導入支援経験をもとに構成した典型的なシナリオです。
Qwen3.5 Smallがとくに力を発揮する場面は、「クラウドに送れないデータ」を扱うケースです。
シナリオ1:オンプレミス契約書・法務文書処理
法務チームが扱う契約書や秘密保持協定(NDA)をクラウドAPIに投げることに社内から反発が出るケースは多い。Qwen3.5-9Bをオンプレミスサーバーで動かすことで、機密データが外部に送出されることなく、自動チェック・要約・リスク抽出が可能になります。
推定コスト削減: クラウドAPI依存を排除することで、継続的なAPI費用が不要になります(APIコスト0円、ただしサーバー・電力コストは別途発生)。
シナリオ2:製造・物流現場でのエッジ推論
工場や倉庫にはネットワーク接続が不安定な場所があります。Qwen3.5-0.8Bや2Bはラズベリーパイ4(8GB版)や組み込みGPUボード(NVIDIA Jetson等)で動作するため、完全オフラインでの映像解析+テキスト処理が可能です。
シナリオ3:開発環境でのCopilot代替
GitHub CopilotやAmazon Q Developerは月額$10〜19のSaaSですが、Qwen3.5-9BをOllamaで動かし、Continue等のVS Code拡張と組み合わせることで、サブスクリプション費用ゼロのローカルコード補完環境が作れます。
// Continue(VS Code拡張)の設定例
// ~/.continue/config.json
// 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。
{
"models": [
{
"title": "Qwen3.5-9B (Local)",
"provider": "ollama",
"model": "qwen3.5:9b",
"apiBase": "http://localhost:11434"
}
],
"tabAutocompleteModel": {
"title": "Qwen3.5-4B (Autocomplete)",
"provider": "ollama",
"model": "qwen3.5:4b"
}
}
【要注意】よくある失敗パターンと回避策
失敗1:すべてのタスクに9Bを使おうとする
❌ 「9Bが最強だから全部9Bで」と決め打ちする
⭕ タスクの複雑さに応じてモデルを使い分ける(シンプルな分類・抽出 → 2B / 複雑な推論 → 9B)
なぜ重要か: 9Bは2Bの3〜4倍の計算リソースを消費します。バッチ処理や高頻度のAPIコールでは2Bや4Bの方がスループットが高い場面があります。
失敗2:マルチモーダル機能をOllamaで試そうとする
❌ Ollamaで画像を入力してエラーが出る
⭕ テキスト専用タスクにはOllama、画像・動画入力にはllama.cppかtransformersを使う
なぜ重要か: 2026年3月時点でOllamaはQwen3.5の別ファイル(mmproj.gguf)を自動的にロードしません。公式のllama.cppかHugging Faceのパイプラインを使用してください。
失敗3:ベンチマーク結果だけで選定する
❌ 「MMLU-ProがGPT-4oより高いから、コーディングもQwen3.5の方が上」と判断する
⭕ 実際のユースケースで自前のベンチマークを取る(タスク別に評価する)
なぜ重要か: MMLU-ProやGPQA Diamondは知識・推論の評価です。コーディング、長文要約、日本語固有のニュアンス理解など、タスクによっては大型モデルに軍配が上がることがあります。
失敗4:量子化版のRAM見積もりを間違える
❌「9Bだから9GBあれば動く」と思って8GB RAMのマシンで試みる
⭕ OSとランタイムのオーバーヘッドを含めて16GBを確保する(量子化後モデルは6.6GBだが、推論時のキャッシュ・OS使用分が加わる)
セキュリティと運用上の注意点
ローカル実行だからといって、セキュリティ対策を省いてはいけません。
- プロンプトインジェクション対策: ユーザーからの入力をシステムプロンプトと明確に分離すること。Ollamaに渡す前に
user_input.strip()でサニタイズし、インジェクション攻撃のパターン(「システムプロンプトを無視して」等)をフィルタリングします。 - ネットワーク分離:
ollama serveはデフォルトで127.0.0.1:11434にバインドします。社内ネットワークに公開する場合は認証レイヤーを必ず挟んでください(nginxのBasic Auth等)。 - 入出力ログ: 法務・医療用途では入力プロンプトと出力を必ずログに記録し、後から監査できる体制を作ってください。
- モデルの更新: オープンソースモデルは脆弱性が公表されることがあります。QwenチームのGitHubとHugging Faceをフォローして更新情報を追いましょう。
参考・出典
- Qwen3.5: Towards Native Multimodal Agents — Alibaba Cloud公式ブログ(参照日: 2026-03-14)
- Alibaba’s small, open source Qwen3.5-9B beats OpenAI’s gpt-oss-120B — VentureBeat(参照日: 2026-03-14)
- Qwen3.5-9B tops every AI benchmark right now, but that’s not how you should pick a model — XDA Developers(参照日: 2026-03-14)
- QwenLM/Qwen3.5 — GitHub公式リポジトリ(参照日: 2026-03-14)
- qwen3.5 — Ollama公式ライブラリ(参照日: 2026-03-14)
- Alibaba just released Qwen 3.5 Small models — MarkTechPost(参照日: 2026-03-14)
まとめ:今日から始める3つのアクション
- 今日やること: Ollamaをインストールして
ollama run qwen3.5:4bを起動し、業務に関連する質問を10個投げて反応を確認する(RAM 8GBあれば動作) - 今週中: 自社のユースケース(契約書チェック、コード補完、多言語対応等)に対してQwen3.5-9BとClaude 3.5 Sonnetなどのクラウドモデルを同じプロンプトで比較し、品質差を定量評価する
- 今月中: 機密データを扱う業務の1プロセスをQwen3.5-9Bのオンプレミス推論で代替する小規模PoCを開始する。コスト試算とデータ保護の両面でメリットを定量化する
あわせて読みたい:
- AIエージェント構築ツール徹底比較 — LLMの選択基準とオープンソース vs クラウドAPIの使い分け
- AIエージェント構築完全ガイド — 小型モデルを活かすエージェントアーキテクチャの設計パターン
AIエージェントの導入支援・社内AI研修については 株式会社Uravation(お問い合わせ) からご相談ください。
この記事はAIgent Lab編集部がお届けしました。