GLM-5.1コーディング性能検証｜Claude Opus 94.6%をHuawei半導体で達成した衝撃

2026.04.05 公開 5分で読める

この記事の結論

Zhipu AIのGLM-5.1がClaude Opus 4.6のコーディング性能94.6%を達成。MoEアーキテクチャ744B/40Bの構成、ポスト訓練の改善内容、4月7日のオープンソース化の技術的意味を開発者目線で検証。

中国Zhipu AI（智谱）が2026年3月27日にリリースしたGLM-5.1が、コーディングベンチマークで予想外の結果を叩き出しました。スコア45.3 — Claude Opus 4.6（47.9）の94.6%に到達し、GPT-5.3（44.1）を上回っています。

しかも、訓練に使われたのはNVIDIA GPUではなくHuawei Ascend 910Bチップ10万基。4月6-7日にはMITライセンスでオープンソース化される予定です。

この記事では、GLM-5.1の技術仕様、ベンチマークの内訳、そしてエージェント開発者にとっての実用性を検証します。

ベンチマーク結果の全貌

モデル	コーディング総合	エージェント型コーディング	総合ランキング	価格（API）
Claude Opus 4.6	47.9	1位	1位	$15/1M input
Gemini 3.1 Pro	46.5	3位	2位	$7/1M input
GPT-5.3	44.1	4位	3位	$10/1M input
GLM-5.1	45.3	2位	5位	$3/月〜
DeepSeek V4	43.8	6位	4位	$2/1M input

注目すべきはエージェント型コーディングで2位という結果。自律的にコードを書き、テストし、修正するタスクでClaude Opus 4.6に次ぐ性能を見せています。

MoEアーキテクチャの技術詳細

GLM-5.1のベースは、GLM-5と同じMixture-of-Experts（MoE）構成です。

# GLM-5.1 アーキテクチャ概要
Total Parameters: 744B
Active Parameters: 40B (推論時)
Context Window: 204,800 tokens
Architecture: Transformer MoE
Expert Selection: Top-k routing
Training Chips: Huawei Ascend 910B × 100,000

MoEの利点は、推論時に全パラメータを使わないため、巨大モデルでありながら推論コストを抑えられる点にあります。744Bのうち40Bだけがアクティブということは、推論速度は40Bクラスのモデルと同程度。それでいて、学習時には744B全体を使っているため、知識量は大規模モデル並みです。

ポスト訓練で何が変わったか — GLM-5 vs GLM-5.1

GLM-5からGLM-5.1への改善は、プレ訓練（大規模データでの基礎学習）ではなくポスト訓練に集中しています。

改善ポイント	GLM-5	GLM-5.1	開発者への影響
自己デバッグ	なし	コード生成→エラー検出→修正ループ	エージェントの自律修正率向上
適応型推論	固定深度	タスク複雑度に応じて推論深度調整	簡単なタスクで速度向上
命令遵守	基本的	長い指示・複雑な制約を正確に追従	システムプロンプトの信頼性向上
コンテキスト理解	部分的	204Kトークン全体を有効活用	大規模コードベースの理解向上

この「ポスト訓練だけで28%スコア改善」は、技術的に示唆に富んでいます。大規模な計算リソースを使った再訓練なしでも、RLHF（人間のフィードバックによる強化学習）やSFT（教師ありファインチューニング）の質を高めるだけで、性能を大きく引き上げられることを証明しています。

Huawei Ascend 910B — NVIDIA代替の現実

GLM-5.1が技術コミュニティに与えた最大の衝撃は、NVIDIA GPUなしでフロンティアAIを訓練できることの証明です。

# Ascend 910B vs NVIDIA A100 比較
                    Ascend 910B    NVIDIA A100
FP16性能 (TFLOPS)    320            312
メモリ               64GB HBM2e    80GB HBM2e
相互接続              HCCS          NVLink
ソフトウェア          CANN          CUDA
エコシステム成熟度    発展途上       成熟

スペック上はAscend 910BとA100は同等クラスですが、CUDAエコシステムの成熟度が決定的な差です。PyTorchやTensorFlowの最適化はNVIDIA向けが圧倒的に進んでおり、同じモデルでもNVIDIAチップのほうが効率が良いケースが多い。

Zhipu AIはこの差を「10万基の物量」で埋めた、というのが実態です。効率では劣るが、スケールで勝負するアプローチ。

よくあるエラーと注意点

❌ ベンチマークスコアだけでモデルを選ぶ

⭕ コーディングベンチマークは特定のタスクセットでの評価。実際のプロダクション環境では、日本語の精度、長期的な会話の一貫性、APIの安定性など、ベンチマークに現れない要素が重要です。

❌ 「NVIDIA不要」を過大解釈する

⭕ GLM-5.1の訓練はHuaweiチップで可能でしたが、推論のデプロイメントでは依然としてNVIDIA GPUのほうが効率的なケースが多い。特にvLLMやTGIなどの推論フレームワークは、CUDA最適化が前提です。

❌ 中国製モデルを無条件に回避する

⭕ 4月のオープンソース化後は、自社サーバーで完全にローカル実行可能。データが中国に送信されることはない。ただし、訓練データの偏りやバイアスの検証は必要です。

❌ MoEモデルのVRAM要件を甘く見る

⭕ 推論時のアクティブパラメータは40Bですが、744B全体をメモリにロードする必要があります。最低でもA100 80GB × 8基（640GB VRAM）程度が必要と推定されます。

エージェント開発者にとっての実用性

GLM-5.1がエージェント型コーディングで2位を獲得した点は、AIエージェント開発者にとって注目に値します。

4月7日のオープンソース化後、以下のユースケースが考えられます:

オンプレミス型コーディングエージェント: セキュリティ要件が厳しい環境で、Claude Code的な開発支援をローカルで実現
マルチエージェントシステムのワーカー: コスト効率の良い「作業者」エージェントとして、Claude/GPTをオーケストレーターに据える構成
ファインチューニングのベースモデル: MITライセンスのため、特定ドメインに特化したコーディングモデルの作成が自由

参考・出典

China’s Z.ai Launches GLM-5.1 — CTOL Digital Solutions（参照日: 2026-03-27）
GLM-5.1 vs Claude, GPT, Gemini, DeepSeek — WaveSpeed AI Blog（参照日: 2026-03-27）
GLM-5.1 Coding Plan Guide — Apiyi.com（参照日: 2026-03-27）
GLM-5.1 Review: Can It Beat Claude Opus 4.6? — Build Fast with AI（参照日: 2026-03-27）

著者: 佐藤傑（さとう・すぐる）
株式会社Uravation代表取締役。X（@SuguruKun_ai）フォロワー10万人超。
100社以上の企業向けAI研修・導入支援。著書累計3万部突破。
SoftBank IT連載7回執筆（NewsPicks最大1,125ピックス）。

ご質問・ご相談はお問い合わせフォームからお気軽にどうぞ。

Need help moving from reading to rollout?

この記事を読んで導入イメージが固まってきた方へ

Uravationでは、AIエージェントの要件整理、PoC設計、社内導入、研修まで一気通貫で支援しています。

30分無料相談を予約支援実績を見る

※ 本記事の情報は2026年4月時点のものです。サービスの料金・仕様は変更される可能性があります。最新情報は各サービスの公式サイトをご確認ください。