ベンチマーク

Meta Muse Spark解剖|AIインデックス4位の技術を読む

Meta Muse Spark解剖|AIインデックス4位の技術を読む

この記事の結論

Meta Superintelligence Labsが開発したMuse SparkはAIインデックスv4.0で4位。スタック完全再構築の技術的背景とGPT-5.4・Claude Opus 4.6との性能差を徹底分析する。

Meta Superintelligence Labs(MSL)が2026年4月8日に公開したMuse Sparkは、AIインデックスv4.0で52点・4位という結果を叩き出した。

GPT-5.4(57点)、Gemini 3.1 Pro(57点)、Claude Opus 4.6(53点)に次ぐ数字だが、HealthBench Hardで42.8%という全モデル最高スコアを記録しており、「4位」という順位だけで語れない実力がある。

この記事では、Muse Sparkの技術的な背景とアーキテクチャ推定、主要モデルとのベンチマーク比較、そして開発者が今すぐ知っておくべき実務的な影響を整理する。


何が起きたのか — Muse Spark登場の文脈

Muse Sparkは、Metaが2025年のLlama 4リリース失敗後に設立したMeta Superintelligence Labsが開発した最初のモデルだ。内部コードネームは”Avocado”。

Llama 4の苦い経験からMetaが学んだのは、「既存スタックの延長では戦えない」という事実だった。9ヶ月間のスプリントで、アーキテクチャ・インフラ・データパイプラインを完全に再構築した。その成果がMuse Sparkだ。

注目すべきもう一点は、オープンウェイトではないこと。Llama系列の伝統を破り、クローズドな形でリリースされた。The Registerが「MetaのオープンさはZuckerbergのプライベートスクールなみ」と皮肉ったように、この転換はコミュニティに衝撃を与えた。

スペック比較 — 主要モデルとの数値対照表

Artificial Analysis Intelligence Index v4.0の結果をベースに、主要4モデルを横断比較する。

ベンチマーク Muse Spark GPT-5.4 Gemini 3.1 Pro Claude Opus 4.6
AIインデックス総合 52 57 57 53
HealthBench Hard 42.8%(1位) 40.1% 20.6%
Humanity’s Last Exam(ツールなし) 50.2%(1位) 43.9% 48.4%
FrontierScience Research 38.3(1位) 36.7
Terminal-Bench 2.0(コーディング) 59.0 75.1 68.5
ARC AGI 2(抽象推論) 42.5 76.1 76.5
出力トークン数(評価全体) 58M 120M 58M相当 157M

最終確認日: 2026-04-09 / 出典: Artificial Analysis Intelligence Index v4.0

ここから見えることが3つある。

ひとつ目は、医療・科学推論での圧倒的な強さだ。HealthBench Hardで2位のGPT-5.4を2.7ポイント上回り、Gemini 3.1 Proとは22ポイントの差がある。コーディングと抽象推論が弱点だが、医学・科学特化モデルとして開発者が使うシナリオでは首位に立つ。

ふたつ目は、トークン効率だ。58Mトークンで評価を完了できるのはGeminiと同水準。Claude Opus 4.6(157M)の1/3以下で同等の評価作業をこなすことを意味する。コストを気にするAPIユーザーにとっては重要な指標だ。

三つ目は、コーディングの現実だ。Terminal-Bench 2.0で59.0という数字は、GPT-5.4(75.1)と16ポイントの差がある。コードエージェント主体の用途では、現時点でMuse Sparkを第一選択にすることは難しい。

アーキテクチャを技術的に読む

Metaは詳細なアーキテクチャを公開していないが、公開情報から推定できる点がある。

まず、ネイティブマルチモーダル設計だ。テキスト・画像・ビデオを単一モデルで処理できる。Llama 4ではマルチモーダル対応が後付け的だったが、Muse Sparkは最初から混合データで学習されたとMetaは述べている。

次に、「Contemplatingモード」と通常推論モードの二段階設計だ。Humanity’s Last Examの結果を見ると、Contemplatingモードが50.2%に対して通常モードでは下がることがわかっている。内部で思考プロセスを延長する拡張推論モードを持つ点は、OpenAIのo3やAnthropicのExtended Thinkingと同じ方向性だ。

そして、プリトレーニング効率の主張だ。MetaはMuse SparkがLlama 4 Maverickと同等の能力を「10倍以上少ない計算量」で達成できると主張している。これが事実であれば、データキュレーションとアーキテクチャの組み合わせに何らかのブレークスルーがある可能性が高い。ただし、この主張は第三者検証を待つ必要がある。

開発者が知っておくべきこと

Muse SparkはMeta AI(meta.ai)経由でAPIアクセスが可能だ。開発者向けに重要な3点を整理する。

1. 医療・科学系アプリに使う場合はベンチマークの差が本物か確認する

HealthBench Hardの42.8%はインパクトのある数字だが、これはHealthBenchの評価セット上の結果だ。自社の具体的なユースケースでテストすることが必須だ。医療系AIアプリで採用を検討するなら、独自の評価セットで比較することを強く推奨する。

2. コーディングエージェントには使わない(今は)

Terminal-Bench 2.0の59.0というスコアは、GPT-5.4の75.1と比べて顕著な差がある。コード生成・コードレビュー・エージェントコーディングが主要用途なら、現時点でMuse Sparkは第一候補になりにくい。

3. トークン効率でコスト計算を見直す

58Mトークンでのインデックス評価完了は、Claude Opus 4.6の1/3以下のトークン使用量を意味する。自社のエージェントが長い思考チェーンを必要とするタスクで使う場合、Muse Sparkへの移行でコストが大幅に下がる可能性がある。

正直に言うと、Muse Sparkはまだリリース直後だ。APIの安定性、レート制限、日本語性能の詳細など、把握できていない部分が多い。「医療・科学は強い、コーディングは弱い」という輪郭は見えてきたが、本番採用前には自前での評価が不可欠だ。

この先どうなるか

Muse Sparkの登場でフロンティアAIは完全な5強体制になった。MetaはLlama 4失敗後に方針を転換し、クローズドモデルで再参入した。オープンウェイトの旗手だったMetaがクローズドに舵を切ったことは、「商業的なフロンティア競争ではクローズドが有利」というシグナルかもしれない。

一方、コーディング性能の差はMetaにとって課題だ。エンタープライズAI採用においてコーディングエージェントの需要は急速に拡大しており、この弱点を放置すれば市場シェアに直結する。次のアップデートでコーディング性能がどこまで改善されるかが注目点だ。

Muse Spark関連のアーキテクチャ比較については、Claude Opus 4.6 vs GPT-5.4 vs Gemini 3.1比較記事も参照してほしい。AIエージェント構築への応用については、AIエージェント構築完全ガイドでモデル選定の考え方を整理している。

参考・出典


AIエージェント開発に関するご相談は株式会社Uravationのお問い合わせフォームからどうぞ。

この記事はAIgent Lab編集部がお届けしました。

Need help moving from reading to rollout?

この記事を読んで導入イメージが固まってきた方へ

Uravationでは、AIエージェントの要件整理、PoC設計、社内導入、研修まで一気通貫で支援しています。

この記事をシェア

X Facebook LINE

※ 本記事の情報は2026年4月時点のものです。サービスの料金・仕様は変更される可能性があります。最新情報は各サービスの公式サイトをご確認ください。

関連記事