Meta Superintelligence Labs(MSL)が2026年4月8日に公開したMuse Sparkは、AIインデックスv4.0で52点・4位という結果を叩き出した。
GPT-5.4(57点)、Gemini 3.1 Pro(57点)、Claude Opus 4.6(53点)に次ぐ数字だが、HealthBench Hardで42.8%という全モデル最高スコアを記録しており、「4位」という順位だけで語れない実力がある。
この記事では、Muse Sparkの技術的な背景とアーキテクチャ推定、主要モデルとのベンチマーク比較、そして開発者が今すぐ知っておくべき実務的な影響を整理する。
何が起きたのか — Muse Spark登場の文脈
Muse Sparkは、Metaが2025年のLlama 4リリース失敗後に設立したMeta Superintelligence Labsが開発した最初のモデルだ。内部コードネームは”Avocado”。
Llama 4の苦い経験からMetaが学んだのは、「既存スタックの延長では戦えない」という事実だった。9ヶ月間のスプリントで、アーキテクチャ・インフラ・データパイプラインを完全に再構築した。その成果がMuse Sparkだ。
注目すべきもう一点は、オープンウェイトではないこと。Llama系列の伝統を破り、クローズドな形でリリースされた。The Registerが「MetaのオープンさはZuckerbergのプライベートスクールなみ」と皮肉ったように、この転換はコミュニティに衝撃を与えた。
スペック比較 — 主要モデルとの数値対照表
Artificial Analysis Intelligence Index v4.0の結果をベースに、主要4モデルを横断比較する。
| ベンチマーク | Muse Spark | GPT-5.4 | Gemini 3.1 Pro | Claude Opus 4.6 |
|---|---|---|---|---|
| AIインデックス総合 | 52 | 57 | 57 | 53 |
| HealthBench Hard | 42.8%(1位) | 40.1% | 20.6% | — |
| Humanity’s Last Exam(ツールなし) | 50.2%(1位) | 43.9% | 48.4% | — |
| FrontierScience Research | 38.3(1位) | 36.7 | — | — |
| Terminal-Bench 2.0(コーディング) | 59.0 | 75.1 | 68.5 | — |
| ARC AGI 2(抽象推論) | 42.5 | 76.1 | 76.5 | — |
| 出力トークン数(評価全体) | 58M | 120M | 58M相当 | 157M |
最終確認日: 2026-04-09 / 出典: Artificial Analysis Intelligence Index v4.0
ここから見えることが3つある。
ひとつ目は、医療・科学推論での圧倒的な強さだ。HealthBench Hardで2位のGPT-5.4を2.7ポイント上回り、Gemini 3.1 Proとは22ポイントの差がある。コーディングと抽象推論が弱点だが、医学・科学特化モデルとして開発者が使うシナリオでは首位に立つ。
ふたつ目は、トークン効率だ。58Mトークンで評価を完了できるのはGeminiと同水準。Claude Opus 4.6(157M)の1/3以下で同等の評価作業をこなすことを意味する。コストを気にするAPIユーザーにとっては重要な指標だ。
三つ目は、コーディングの現実だ。Terminal-Bench 2.0で59.0という数字は、GPT-5.4(75.1)と16ポイントの差がある。コードエージェント主体の用途では、現時点でMuse Sparkを第一選択にすることは難しい。
アーキテクチャを技術的に読む
Metaは詳細なアーキテクチャを公開していないが、公開情報から推定できる点がある。
まず、ネイティブマルチモーダル設計だ。テキスト・画像・ビデオを単一モデルで処理できる。Llama 4ではマルチモーダル対応が後付け的だったが、Muse Sparkは最初から混合データで学習されたとMetaは述べている。
次に、「Contemplatingモード」と通常推論モードの二段階設計だ。Humanity’s Last Examの結果を見ると、Contemplatingモードが50.2%に対して通常モードでは下がることがわかっている。内部で思考プロセスを延長する拡張推論モードを持つ点は、OpenAIのo3やAnthropicのExtended Thinkingと同じ方向性だ。
そして、プリトレーニング効率の主張だ。MetaはMuse SparkがLlama 4 Maverickと同等の能力を「10倍以上少ない計算量」で達成できると主張している。これが事実であれば、データキュレーションとアーキテクチャの組み合わせに何らかのブレークスルーがある可能性が高い。ただし、この主張は第三者検証を待つ必要がある。
開発者が知っておくべきこと
Muse SparkはMeta AI(meta.ai)経由でAPIアクセスが可能だ。開発者向けに重要な3点を整理する。
1. 医療・科学系アプリに使う場合はベンチマークの差が本物か確認する
HealthBench Hardの42.8%はインパクトのある数字だが、これはHealthBenchの評価セット上の結果だ。自社の具体的なユースケースでテストすることが必須だ。医療系AIアプリで採用を検討するなら、独自の評価セットで比較することを強く推奨する。
2. コーディングエージェントには使わない(今は)
Terminal-Bench 2.0の59.0というスコアは、GPT-5.4の75.1と比べて顕著な差がある。コード生成・コードレビュー・エージェントコーディングが主要用途なら、現時点でMuse Sparkは第一候補になりにくい。
3. トークン効率でコスト計算を見直す
58Mトークンでのインデックス評価完了は、Claude Opus 4.6の1/3以下のトークン使用量を意味する。自社のエージェントが長い思考チェーンを必要とするタスクで使う場合、Muse Sparkへの移行でコストが大幅に下がる可能性がある。
正直に言うと、Muse Sparkはまだリリース直後だ。APIの安定性、レート制限、日本語性能の詳細など、把握できていない部分が多い。「医療・科学は強い、コーディングは弱い」という輪郭は見えてきたが、本番採用前には自前での評価が不可欠だ。
この先どうなるか
Muse Sparkの登場でフロンティアAIは完全な5強体制になった。MetaはLlama 4失敗後に方針を転換し、クローズドモデルで再参入した。オープンウェイトの旗手だったMetaがクローズドに舵を切ったことは、「商業的なフロンティア競争ではクローズドが有利」というシグナルかもしれない。
一方、コーディング性能の差はMetaにとって課題だ。エンタープライズAI採用においてコーディングエージェントの需要は急速に拡大しており、この弱点を放置すれば市場シェアに直結する。次のアップデートでコーディング性能がどこまで改善されるかが注目点だ。
Muse Spark関連のアーキテクチャ比較については、Claude Opus 4.6 vs GPT-5.4 vs Gemini 3.1比較記事も参照してほしい。AIエージェント構築への応用については、AIエージェント構築完全ガイドでモデル選定の考え方を整理している。
参考・出典
- Meta unveils Muse Spark, its first new model since hiring Alexandr Wang — Fortune(参照日: 2026-04-09)
- Muse Spark – Intelligence, Performance & Price Analysis — Artificial Analysis(参照日: 2026-04-09)
- Meta debuts Muse Spark multimodal reasoning model — SiliconANGLE(参照日: 2026-04-09)
- Meta’s new model is Muse Spark — Simon Willison(参照日: 2026-04-09)
- Meta’s new model is as open as Zuckerberg’s private school — The Register(参照日: 2026-04-09)
- Goodbye, Llama? Meta launches new proprietary AI model Muse Spark — VentureBeat(参照日: 2026-04-09)
AIエージェント開発に関するご相談は株式会社Uravationのお問い合わせフォームからどうぞ。
この記事はAIgent Lab編集部がお届けしました。