Meta Muse Spark解剖｜AIインデックス4位の技術を読む

2026.04.09 公開 6分で読める

この記事の結論

Meta Superintelligence Labsが開発したMuse SparkはAIインデックスv4.0で4位。スタック完全再構築の技術的背景とGPT-5.4・Claude Opus 4.6との性能差を徹底分析する。

Meta Superintelligence Labs（MSL）が2026年4月8日に公開したMuse Sparkは、AIインデックスv4.0で52点・4位という結果を叩き出した。

GPT-5.4（57点）、Gemini 3.1 Pro（57点）、Claude Opus 4.6（53点）に次ぐ数字だが、HealthBench Hardで42.8%という全モデル最高スコアを記録しており、「4位」という順位だけで語れない実力がある。

この記事では、Muse Sparkの技術的な背景とアーキテクチャ推定、主要モデルとのベンチマーク比較、そして開発者が今すぐ知っておくべき実務的な影響を整理する。

何が起きたのか — Muse Spark登場の文脈

Muse Sparkは、Metaが2025年のLlama 4リリース失敗後に設立したMeta Superintelligence Labsが開発した最初のモデルだ。内部コードネームは”Avocado”。

Llama 4の苦い経験からMetaが学んだのは、「既存スタックの延長では戦えない」という事実だった。9ヶ月間のスプリントで、アーキテクチャ・インフラ・データパイプラインを完全に再構築した。その成果がMuse Sparkだ。

注目すべきもう一点は、オープンウェイトではないこと。Llama系列の伝統を破り、クローズドな形でリリースされた。The Registerが「MetaのオープンさはZuckerbergのプライベートスクールなみ」と皮肉ったように、この転換はコミュニティに衝撃を与えた。

スペック比較 — 主要モデルとの数値対照表

Artificial Analysis Intelligence Index v4.0の結果をベースに、主要4モデルを横断比較する。

ベンチマーク	Muse Spark	GPT-5.4	Gemini 3.1 Pro	Claude Opus 4.6
AIインデックス総合	52	57	57	53
HealthBench Hard	42.8%（1位）	40.1%	20.6%	—
Humanity’s Last Exam（ツールなし）	50.2%（1位）	43.9%	48.4%	—
FrontierScience Research	38.3（1位）	36.7	—	—
Terminal-Bench 2.0（コーディング）	59.0	75.1	68.5	—
ARC AGI 2（抽象推論）	42.5	76.1	76.5	—
出力トークン数（評価全体）	58M	120M	58M相当	157M

最終確認日: 2026-04-09 / 出典: Artificial Analysis Intelligence Index v4.0

ここから見えることが3つある。

ひとつ目は、医療・科学推論での圧倒的な強さだ。HealthBench Hardで2位のGPT-5.4を2.7ポイント上回り、Gemini 3.1 Proとは22ポイントの差がある。コーディングと抽象推論が弱点だが、医学・科学特化モデルとして開発者が使うシナリオでは首位に立つ。

ふたつ目は、トークン効率だ。58Mトークンで評価を完了できるのはGeminiと同水準。Claude Opus 4.6（157M）の1/3以下で同等の評価作業をこなすことを意味する。コストを気にするAPIユーザーにとっては重要な指標だ。

三つ目は、コーディングの現実だ。Terminal-Bench 2.0で59.0という数字は、GPT-5.4（75.1）と16ポイントの差がある。コードエージェント主体の用途では、現時点でMuse Sparkを第一選択にすることは難しい。

アーキテクチャを技術的に読む

Metaは詳細なアーキテクチャを公開していないが、公開情報から推定できる点がある。

まず、ネイティブマルチモーダル設計だ。テキスト・画像・ビデオを単一モデルで処理できる。Llama 4ではマルチモーダル対応が後付け的だったが、Muse Sparkは最初から混合データで学習されたとMetaは述べている。

次に、「Contemplatingモード」と通常推論モードの二段階設計だ。Humanity’s Last Examの結果を見ると、Contemplatingモードが50.2%に対して通常モードでは下がることがわかっている。内部で思考プロセスを延長する拡張推論モードを持つ点は、OpenAIのo3やAnthropicのExtended Thinkingと同じ方向性だ。

そして、プリトレーニング効率の主張だ。MetaはMuse SparkがLlama 4 Maverickと同等の能力を「10倍以上少ない計算量」で達成できると主張している。これが事実であれば、データキュレーションとアーキテクチャの組み合わせに何らかのブレークスルーがある可能性が高い。ただし、この主張は第三者検証を待つ必要がある。

開発者が知っておくべきこと

Muse SparkはMeta AI（meta.ai）経由でAPIアクセスが可能だ。開発者向けに重要な3点を整理する。

1. 医療・科学系アプリに使う場合はベンチマークの差が本物か確認する

HealthBench Hardの42.8%はインパクトのある数字だが、これはHealthBenchの評価セット上の結果だ。自社の具体的なユースケースでテストすることが必須だ。医療系AIアプリで採用を検討するなら、独自の評価セットで比較することを強く推奨する。

2. コーディングエージェントには使わない（今は）

Terminal-Bench 2.0の59.0というスコアは、GPT-5.4の75.1と比べて顕著な差がある。コード生成・コードレビュー・エージェントコーディングが主要用途なら、現時点でMuse Sparkは第一候補になりにくい。

3. トークン効率でコスト計算を見直す

58Mトークンでのインデックス評価完了は、Claude Opus 4.6の1/3以下のトークン使用量を意味する。自社のエージェントが長い思考チェーンを必要とするタスクで使う場合、Muse Sparkへの移行でコストが大幅に下がる可能性がある。

正直に言うと、Muse Sparkはまだリリース直後だ。APIの安定性、レート制限、日本語性能の詳細など、把握できていない部分が多い。「医療・科学は強い、コーディングは弱い」という輪郭は見えてきたが、本番採用前には自前での評価が不可欠だ。

この先どうなるか

Muse Sparkの登場でフロンティアAIは完全な5強体制になった。MetaはLlama 4失敗後に方針を転換し、クローズドモデルで再参入した。オープンウェイトの旗手だったMetaがクローズドに舵を切ったことは、「商業的なフロンティア競争ではクローズドが有利」というシグナルかもしれない。

一方、コーディング性能の差はMetaにとって課題だ。エンタープライズAI採用においてコーディングエージェントの需要は急速に拡大しており、この弱点を放置すれば市場シェアに直結する。次のアップデートでコーディング性能がどこまで改善されるかが注目点だ。

Muse Spark関連のアーキテクチャ比較については、Claude Opus 4.6 vs GPT-5.4 vs Gemini 3.1比較記事も参照してほしい。AIエージェント構築への応用については、AIエージェント構築完全ガイドでモデル選定の考え方を整理している。

参考・出典

Meta unveils Muse Spark, its first new model since hiring Alexandr Wang — Fortune（参照日: 2026-04-09）
Muse Spark – Intelligence, Performance & Price Analysis — Artificial Analysis（参照日: 2026-04-09）
Meta debuts Muse Spark multimodal reasoning model — SiliconANGLE（参照日: 2026-04-09）
Meta’s new model is Muse Spark — Simon Willison（参照日: 2026-04-09）
Meta’s new model is as open as Zuckerberg’s private school — The Register（参照日: 2026-04-09）
Goodbye, Llama? Meta launches new proprietary AI model Muse Spark — VentureBeat（参照日: 2026-04-09）

AIエージェント開発に関するご相談は株式会社Uravationのお問い合わせフォームからどうぞ。

この記事はAIgent Lab編集部がお届けしました。

Need help moving from reading to rollout?

この記事を読んで導入イメージが固まってきた方へ

Uravationでは、AIエージェントの要件整理、PoC設計、社内導入、研修まで一気通貫で支援しています。

30分無料相談を予約支援実績を見る

※ 本記事の情報は2026年4月時点のものです。サービスの料金・仕様は変更される可能性があります。最新情報は各サービスの公式サイトをご確認ください。

Meta Muse Spark解剖｜AIインデックス4位の技術を読む

何が起きたのか — Muse Spark登場の文脈

スペック比較 — 主要モデルとの数値対照表

アーキテクチャを技術的に読む

開発者が知っておくべきこと

この先どうなるか

参考・出典

この記事を読んで導入イメージが固まってきた方へ

関連記事

SWE-bench 93.9%達成｜Claude Mythosが変える開発AI

攻撃AIと防御AIの最前線：エージェント同士が戦う時代へ

GPT-5.4 vs Claude｜Computer Use選定ガイド