ベンチマーク

GLM-5.1コーディング性能検証|Claude Opus 94.6%をHuawei半導体で達成した衝撃

この記事の結論

Zhipu AIのGLM-5.1がClaude Opus 4.6のコーディング性能94.6%を達成。MoEアーキテクチャ744B/40Bの構成、ポスト訓練の改善内容、4月7日のオープンソース化の技術的意味を開発者目線で検証。

中国Zhipu AI(智谱)が2026年3月27日にリリースしたGLM-5.1が、コーディングベンチマークで予想外の結果を叩き出しました。スコア45.3 — Claude Opus 4.6(47.9)の94.6%に到達し、GPT-5.3(44.1)を上回っています。

しかも、訓練に使われたのはNVIDIA GPUではなくHuawei Ascend 910Bチップ10万基。4月6-7日にはMITライセンスでオープンソース化される予定です。

この記事では、GLM-5.1の技術仕様、ベンチマークの内訳、そしてエージェント開発者にとっての実用性を検証します。

ベンチマーク結果の全貌

モデル コーディング総合 エージェント型コーディング 総合ランキング 価格(API)
Claude Opus 4.6 47.9 1位 1位 $15/1M input
Gemini 3.1 Pro 46.5 3位 2位 $7/1M input
GPT-5.3 44.1 4位 3位 $10/1M input
GLM-5.1 45.3 2位 5位 $3/月〜
DeepSeek V4 43.8 6位 4位 $2/1M input

注目すべきはエージェント型コーディングで2位という結果。自律的にコードを書き、テストし、修正するタスクでClaude Opus 4.6に次ぐ性能を見せています。

MoEアーキテクチャの技術詳細

GLM-5.1のベースは、GLM-5と同じMixture-of-Experts(MoE)構成です。

# GLM-5.1 アーキテクチャ概要
Total Parameters: 744B
Active Parameters: 40B (推論時)
Context Window: 204,800 tokens
Architecture: Transformer MoE
Expert Selection: Top-k routing
Training Chips: Huawei Ascend 910B × 100,000

MoEの利点は、推論時に全パラメータを使わないため、巨大モデルでありながら推論コストを抑えられる点にあります。744Bのうち40Bだけがアクティブということは、推論速度は40Bクラスのモデルと同程度。それでいて、学習時には744B全体を使っているため、知識量は大規模モデル並みです。

ポスト訓練で何が変わったか — GLM-5 vs GLM-5.1

GLM-5からGLM-5.1への改善は、プレ訓練(大規模データでの基礎学習)ではなくポスト訓練に集中しています。

改善ポイント GLM-5 GLM-5.1 開発者への影響
自己デバッグ なし コード生成→エラー検出→修正ループ エージェントの自律修正率向上
適応型推論 固定深度 タスク複雑度に応じて推論深度調整 簡単なタスクで速度向上
命令遵守 基本的 長い指示・複雑な制約を正確に追従 システムプロンプトの信頼性向上
コンテキスト理解 部分的 204Kトークン全体を有効活用 大規模コードベースの理解向上

この「ポスト訓練だけで28%スコア改善」は、技術的に示唆に富んでいます。大規模な計算リソースを使った再訓練なしでも、RLHF(人間のフィードバックによる強化学習)やSFT(教師ありファインチューニング)の質を高めるだけで、性能を大きく引き上げられることを証明しています。

Huawei Ascend 910B — NVIDIA代替の現実

GLM-5.1が技術コミュニティに与えた最大の衝撃は、NVIDIA GPUなしでフロンティアAIを訓練できることの証明です。

# Ascend 910B vs NVIDIA A100 比較
                    Ascend 910B    NVIDIA A100
FP16性能 (TFLOPS)    320            312
メモリ               64GB HBM2e    80GB HBM2e
相互接続              HCCS          NVLink
ソフトウェア          CANN          CUDA
エコシステム成熟度    発展途上       成熟

スペック上はAscend 910BとA100は同等クラスですが、CUDAエコシステムの成熟度が決定的な差です。PyTorchやTensorFlowの最適化はNVIDIA向けが圧倒的に進んでおり、同じモデルでもNVIDIAチップのほうが効率が良いケースが多い。

Zhipu AIはこの差を「10万基の物量」で埋めた、というのが実態です。効率では劣るが、スケールで勝負するアプローチ。

よくあるエラーと注意点

❌ ベンチマークスコアだけでモデルを選ぶ

⭕ コーディングベンチマークは特定のタスクセットでの評価。実際のプロダクション環境では、日本語の精度長期的な会話の一貫性APIの安定性など、ベンチマークに現れない要素が重要です。

❌ 「NVIDIA不要」を過大解釈する

⭕ GLM-5.1の訓練はHuaweiチップで可能でしたが、推論のデプロイメントでは依然としてNVIDIA GPUのほうが効率的なケースが多い。特にvLLMやTGIなどの推論フレームワークは、CUDA最適化が前提です。

❌ 中国製モデルを無条件に回避する

⭕ 4月のオープンソース化後は、自社サーバーで完全にローカル実行可能。データが中国に送信されることはない。ただし、訓練データの偏りやバイアスの検証は必要です。

❌ MoEモデルのVRAM要件を甘く見る

⭕ 推論時のアクティブパラメータは40Bですが、744B全体をメモリにロードする必要があります。最低でもA100 80GB × 8基(640GB VRAM)程度が必要と推定されます。

エージェント開発者にとっての実用性

GLM-5.1がエージェント型コーディングで2位を獲得した点は、AIエージェント開発者にとって注目に値します。

4月7日のオープンソース化後、以下のユースケースが考えられます:

  1. オンプレミス型コーディングエージェント: セキュリティ要件が厳しい環境で、Claude Code的な開発支援をローカルで実現
  2. マルチエージェントシステムのワーカー: コスト効率の良い「作業者」エージェントとして、Claude/GPTをオーケストレーターに据える構成
  3. ファインチューニングのベースモデル: MITライセンスのため、特定ドメインに特化したコーディングモデルの作成が自由

参考・出典


著者: 佐藤傑(さとう・すぐる)
株式会社Uravation代表取締役。X(@SuguruKun_ai)フォロワー10万人超。
100社以上の企業向けAI研修・導入支援。著書累計3万部突破。
SoftBank IT連載7回執筆(NewsPicks最大1,125ピックス)。

ご質問・ご相談は お問い合わせフォーム からお気軽にどうぞ。

Need help moving from reading to rollout?

この記事を読んで導入イメージが固まってきた方へ

Uravationでは、AIエージェントの要件整理、PoC設計、社内導入、研修まで一気通貫で支援しています。

この記事をシェア

X Facebook LINE

※ 本記事の情報は2026年4月時点のものです。サービスの料金・仕様は変更される可能性があります。最新情報は各サービスの公式サイトをご確認ください。

関連記事