中国Zhipu AI(智谱)が2026年3月27日にリリースしたGLM-5.1が、コーディングベンチマークで予想外の結果を叩き出しました。スコア45.3 — Claude Opus 4.6(47.9)の94.6%に到達し、GPT-5.3(44.1)を上回っています。
しかも、訓練に使われたのはNVIDIA GPUではなくHuawei Ascend 910Bチップ10万基。4月6-7日にはMITライセンスでオープンソース化される予定です。
この記事では、GLM-5.1の技術仕様、ベンチマークの内訳、そしてエージェント開発者にとっての実用性を検証します。
ベンチマーク結果の全貌
| モデル | コーディング総合 | エージェント型コーディング | 総合ランキング | 価格(API) |
|---|---|---|---|---|
| Claude Opus 4.6 | 47.9 | 1位 | 1位 | $15/1M input |
| Gemini 3.1 Pro | 46.5 | 3位 | 2位 | $7/1M input |
| GPT-5.3 | 44.1 | 4位 | 3位 | $10/1M input |
| GLM-5.1 | 45.3 | 2位 | 5位 | $3/月〜 |
| DeepSeek V4 | 43.8 | 6位 | 4位 | $2/1M input |
注目すべきはエージェント型コーディングで2位という結果。自律的にコードを書き、テストし、修正するタスクでClaude Opus 4.6に次ぐ性能を見せています。
MoEアーキテクチャの技術詳細
GLM-5.1のベースは、GLM-5と同じMixture-of-Experts(MoE)構成です。
# GLM-5.1 アーキテクチャ概要
Total Parameters: 744B
Active Parameters: 40B (推論時)
Context Window: 204,800 tokens
Architecture: Transformer MoE
Expert Selection: Top-k routing
Training Chips: Huawei Ascend 910B × 100,000
MoEの利点は、推論時に全パラメータを使わないため、巨大モデルでありながら推論コストを抑えられる点にあります。744Bのうち40Bだけがアクティブということは、推論速度は40Bクラスのモデルと同程度。それでいて、学習時には744B全体を使っているため、知識量は大規模モデル並みです。
ポスト訓練で何が変わったか — GLM-5 vs GLM-5.1
GLM-5からGLM-5.1への改善は、プレ訓練(大規模データでの基礎学習)ではなくポスト訓練に集中しています。
| 改善ポイント | GLM-5 | GLM-5.1 | 開発者への影響 |
|---|---|---|---|
| 自己デバッグ | なし | コード生成→エラー検出→修正ループ | エージェントの自律修正率向上 |
| 適応型推論 | 固定深度 | タスク複雑度に応じて推論深度調整 | 簡単なタスクで速度向上 |
| 命令遵守 | 基本的 | 長い指示・複雑な制約を正確に追従 | システムプロンプトの信頼性向上 |
| コンテキスト理解 | 部分的 | 204Kトークン全体を有効活用 | 大規模コードベースの理解向上 |
この「ポスト訓練だけで28%スコア改善」は、技術的に示唆に富んでいます。大規模な計算リソースを使った再訓練なしでも、RLHF(人間のフィードバックによる強化学習)やSFT(教師ありファインチューニング)の質を高めるだけで、性能を大きく引き上げられることを証明しています。
Huawei Ascend 910B — NVIDIA代替の現実
GLM-5.1が技術コミュニティに与えた最大の衝撃は、NVIDIA GPUなしでフロンティアAIを訓練できることの証明です。
# Ascend 910B vs NVIDIA A100 比較
Ascend 910B NVIDIA A100
FP16性能 (TFLOPS) 320 312
メモリ 64GB HBM2e 80GB HBM2e
相互接続 HCCS NVLink
ソフトウェア CANN CUDA
エコシステム成熟度 発展途上 成熟
スペック上はAscend 910BとA100は同等クラスですが、CUDAエコシステムの成熟度が決定的な差です。PyTorchやTensorFlowの最適化はNVIDIA向けが圧倒的に進んでおり、同じモデルでもNVIDIAチップのほうが効率が良いケースが多い。
Zhipu AIはこの差を「10万基の物量」で埋めた、というのが実態です。効率では劣るが、スケールで勝負するアプローチ。
よくあるエラーと注意点
❌ ベンチマークスコアだけでモデルを選ぶ
⭕ コーディングベンチマークは特定のタスクセットでの評価。実際のプロダクション環境では、日本語の精度、長期的な会話の一貫性、APIの安定性など、ベンチマークに現れない要素が重要です。
❌ 「NVIDIA不要」を過大解釈する
⭕ GLM-5.1の訓練はHuaweiチップで可能でしたが、推論のデプロイメントでは依然としてNVIDIA GPUのほうが効率的なケースが多い。特にvLLMやTGIなどの推論フレームワークは、CUDA最適化が前提です。
❌ 中国製モデルを無条件に回避する
⭕ 4月のオープンソース化後は、自社サーバーで完全にローカル実行可能。データが中国に送信されることはない。ただし、訓練データの偏りやバイアスの検証は必要です。
❌ MoEモデルのVRAM要件を甘く見る
⭕ 推論時のアクティブパラメータは40Bですが、744B全体をメモリにロードする必要があります。最低でもA100 80GB × 8基(640GB VRAM)程度が必要と推定されます。
エージェント開発者にとっての実用性
GLM-5.1がエージェント型コーディングで2位を獲得した点は、AIエージェント開発者にとって注目に値します。
4月7日のオープンソース化後、以下のユースケースが考えられます:
- オンプレミス型コーディングエージェント: セキュリティ要件が厳しい環境で、Claude Code的な開発支援をローカルで実現
- マルチエージェントシステムのワーカー: コスト効率の良い「作業者」エージェントとして、Claude/GPTをオーケストレーターに据える構成
- ファインチューニングのベースモデル: MITライセンスのため、特定ドメインに特化したコーディングモデルの作成が自由
参考・出典
- China’s Z.ai Launches GLM-5.1 — CTOL Digital Solutions(参照日: 2026-03-27)
- GLM-5.1 vs Claude, GPT, Gemini, DeepSeek — WaveSpeed AI Blog(参照日: 2026-03-27)
- GLM-5.1 Coding Plan Guide — Apiyi.com(参照日: 2026-03-27)
- GLM-5.1 Review: Can It Beat Claude Opus 4.6? — Build Fast with AI(参照日: 2026-03-27)
著者: 佐藤傑(さとう・すぐる)
株式会社Uravation代表取締役。X(@SuguruKun_ai)フォロワー10万人超。
100社以上の企業向けAI研修・導入支援。著書累計3万部突破。
SoftBank IT連載7回執筆(NewsPicks最大1,125ピックス)。
ご質問・ご相談は お問い合わせフォーム からお気軽にどうぞ。