ベンチマーク

Llama 4 Scout・Maverick・Behemoth完全解説と比較

Llama 4 Scout・Maverick・Behemoth完全解説と比較

この記事の結論

Meta Llama 4(Scout/Maverick/Behemoth)の仕様・ベンチマーク・使い方を徹底解説。GPT-4oとの性能比較、LMArena論争、EU制限も網羅。

2025年4月5日、Metaは「Llama 4 Herd」を発表した。Scout、Maverick、Behemothという3つのモデルで構成されるこのファミリーは、Mixture-of-Experts(MoE)アーキテクチャとネイティブマルチモーダル処理を組み合わせた、オープンウェイトAIの新しいマイルストーンだ。

ただし「すごい」だけで終わらせてはいけない。発表直後からLMArenaベンチマーク操作疑惑が浮上し、EU向けのマルチモーダル制限、「OSIオープンソース非準拠」というライセンス問題など、使う前に知っておくべき論点がいくつかある。この記事ではスペック・ベンチマーク・使い方・注意点を全部まとめた。

スペック比較

まずScout・Maverick・Behemothの仕様を横並びで整理する。

モデル アクティブパラメータ 総パラメータ エキスパート数 コンテキスト長 状態
Scout 17B 109B 16 最大10Mトークン 公開済み
Maverick 17B 400B 128 最大1Mトークン 公開済み
Behemoth 288B 約2兆(2T) 16 非公開 リサーチプレビュー

MoEは「推論時にエキスパートの一部だけを使う」設計だ。Maverickは総400Bパラメータを持ちながら、推論時に動くのは17B相当だけ。これがコスト効率の核心で、GPT-4oクラスの規模を持ちながらGPT-4o miniに近いコストで動く理由になっている。

Scoutの10Mトークンという数字は実用上どう映るか。標準的な和文1文字は1〜2トークン前後なので、10Mトークンは日本語にして数百〜1,000万字規模のドキュメントを1回のコンテキストに収められる計算になる。契約書の横断検索や、長大なコードベース全体の分析といったユースケースで意味を持つ。

AIエージェント構築の文脈での各モデルの位置付けは、AIエージェント構築完全ガイドでまとめているアーキテクチャ論と合わせて読むと理解が深まる。

Llama 3との違いで見ると何が変わったか

Llama 3.3から4への変化は「バージョンアップ」というより「設計思想の転換」に近い。

観点 Llama 3.3 Llama 4
マルチモーダル テキスト専用 Early Fusionで訓練段階から統合
アーキテクチャ Dense(全パラメータ常時稼働) MoE(一部エキスパートのみ稼働)
コンテキスト長 128K Scout 10M / Maverick 1M
多言語 標準的な多言語対応 多言語トークンを10倍増量、200言語対応
訓練データ 非公開 30兆トークン以上、知識カットオフ2025年3月

特にEarly Fusionは重要な技術選択だ。画像とテキストを「別々に処理して後で合体させる」従来の方式と違い、訓練の最初から両方を混合して学習させる。これによって視覚情報とテキストの統合理解が自然に身につく一方、訓練コストは大幅に増加する。Metaがこの選択に踏み切れた理由のひとつは、30兆トークン以上という圧倒的な訓練データ規模にある。

ベンチマークで比較する

Metaが公開した主要ベンチマークのスコアを確認する(出典: Meta公式ブログ、2025年4月)。

ベンチマーク Scout Maverick GPT-4o(参考)
MMLU 79.6% 85.5% 〜88%
HumanEval(コーディング) 74.1% 82.4% 〜90%
GSM8K(数学) 88.9% 91.5% 〜95%
MATH-500 87.3%

スコアだけ見るとMaverickはGPT-4oに肉薄している。ただしここで正直に書いておくべき点がある。GPT-4oのスコアはバージョンや測定条件で変わる。並べた数字は同一条件での比較ではないので「Llama 4 MaverickはGPT-4oを超えた」とは言い切れない。同一環境での再現性のある比較をしたい場合、自分でevalセットを用意して測定するのが確実だ。

Artificial Analysis Intelligence IndexではMaverick 49点、DeepSeek 53点、GPT-4o 50点という順位が報告されている(2025年4月時点)。総合では2位前後の位置付けだが、コストパフォーマンスで評価すれば話が変わる。

LMArena論争を整理する

Llama 4リリースで最も議論を呼んだのがこの問題だ。

Metaは発表時に「Llama 4 MaverickはLMArena ELO 1417を記録、GPT-4oを上回る」と宣伝した。LMArenaは人間の評価者が2つのモデルの回答をブラインドで比較する仕組みで、スコア1417は当時の上位圏に位置していた。

問題は、Metaが提出したのが一般公開版ではなく、非公開の最適化バージョン(Llama-4-Maverick-03-26-Experimental)だったことだ。この版は回答が長く、絵文字を多用するスタイルになっており、人間の評価者が好む傾向があった。LMArenaの人間評価はこういったスタイルに影響されやすい構造になっている。

LMArenaが公開版(vanilla)を追加で評価したところ、ランクは32位に落ちた。LMArena側も「Metaは実験的なカスタムモデルであることをより明確にすべきだった」と声明を出し、ポリシーを更新している。

Metaはベンチマークのルール違反だったとは認めず、「別の実験バージョンを提出すること自体は認められていた」というスタンスを取った。

この一件が示すのは、LMArenaスコア(ELO)は「人間が好む文体・スタイル」を反映するため、コーディングや論理推論といった実務タスクとは別の軸で動くという点だ。モデルを選ぶとき、評価軸をどこに置くかが重要になる。

使い方——アクセス方法別に整理する

Llama 4にアクセスする方法はいくつかある。用途と環境に応じて選ぼう。

1. チャットUIで試す(無料)

最も手軽な方法はmeta.aiにアクセスすることだ。アカウント登録不要で、テキストと画像の両方を使えるインターフェースが用意されている。まず動作感を確認したい場合はここから始めるといい。

2. Hugging Face経由でモデルを取得する

モデル本体を使いたい場合、Hugging Faceからゲートアクセス申請を行う。

# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。
# 必要条件: huggingface_hub のインストール、ゲートアクセス承認済みアカウント

pip install huggingface_hub transformers

# Scout(17B / 109B総パラメータ)
# モデルID: meta-llama/Llama-4-Scout-17B-16E-Instruct
from huggingface_hub import snapshot_download

model_id = "meta-llama/Llama-4-Scout-17B-16E-Instruct"
snapshot_download(repo_id=model_id, local_dir="./llama4-scout")

動作環境: Python 3.10+, transformers 4.50+
ハードウェア要件: Scout(109B)はH100シングルGPU、Maverickは複数GPU(DGXシステム推奨)
最終確認日: 2026-03-14

3. API経由で使う(推奨・コスト効率優先)

自前でGPUを用意せずにAPI経由で使う場合、Groqが現状最も高速とされる。

# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。
# 必要パッケージ: pip install groq
# 動作環境: Python 3.10+, groq>=0.9.0

import os
from groq import Groq

client = Groq(api_key=os.environ["GROQ_API_KEY"])

response = client.chat.completions.create(
    model="llama-4-scout-17b-16e-instruct",  # Groqのモデル名は変わることがある
    messages=[
        {
            "role": "user",
            "content": "Pythonで非同期HTTPクライアントを実装する最もシンプルな方法を教えてください"
        }
    ],
    max_tokens=1024,
    temperature=0.7
)

print(response.choices[0].message.content)

Groq以外にFireworks AI、Together AI、Azure AI Foundry、Amazon Bedrockでも利用できる。それぞれレイテンシと料金が異なるため、ユースケースに応じて比較検討してほしい。

4. vLLMでローカル推論

# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。
# 動作環境: vLLM 0.4.0+, CUDA 12.1+, H100 GPU(Scout最小要件)

pip install vllm

python -m vllm.entrypoints.openai.api_server 
  --model meta-llama/Llama-4-Scout-17B-16E-Instruct 
  --tensor-parallel-size 1 
  --max-model-len 65536  # コンテキスト長を必要に応じて調整

ScoutはH100シングルGPUで動作するため、クラウドGPUインスタンス1台でも実用的な推論が可能だ。10Mトークンのフルコンテキストを使う場合はVRAMが大幅に増えるため、分割して使う設計が現実的になる。

ライセンスと制限——使う前に確認すること

Llama 4には使う前に必ず把握しておくべき制限がある。

MAU制限: 月間アクティブユーザーが7億人を超えるサービスはMetaへの追加ライセンス申請が必要になる。スタートアップや中小企業は通常関係ないが、大規模サービスへの組み込みは要確認。

表示義務: 「Built with Llama」の表示が必要。

EU制限(重要): Llama 4ファミリー全モデルはマルチモーダル設計のため、EU域内に主たる事業所を置く企業・個人には、マルチモーダル機能の使用権が付与されない。これはEU AIアクトへの対応とみられる。EU在住者がエンドユーザーとして使う分には問題ないが、EUに本拠を置く企業がプロダクトに組み込む場合は法的確認が必要だ。

OSIオープンソース非準拠: Llama 4はソースコードを公開しているが、OSIが定義する「オープンソース」の定義には合致しない。正確には「Source Available(ソース公開)モデル」だ。

筆者のおすすめ——用途別の選び方

「どのモデルを使うべきか」は目的によって変わる。整理すると以下になる。

Scoutが向いているケース: 企業内文書の横断検索、長大な契約書・報告書の分析、ユーザー行動履歴全体を見てパーソナライズするアプリ。10Mトークンというコンテキスト長は現状市場で最長クラスで、「文書を分割してRAGで検索する」設計が不要になるユースケースがある。H100シングルGPUで動くため、コスト的にも現実的な選択肢だ。

Maverickが向いているケース: 画像付きカスタマーサポート、多言語コンテンツ生成、コードレビュー。128エキスパートという設計は汎用的なタスク対応力が高く、「何でもこなせる1台」として使いやすい。ただしGPUリソースはScoutより多く必要になる。

Behemothはまだ選択肢にならない: リサーチプレビュー段階で、一般利用できる状態ではない。今後のリリースを待つことになる。

GPT-4oと迷うとき: コーディングや論理推論の精度を最大化したいならGPT-4oに分がある。コスト効率、長コンテキスト、ローカル実行の柔軟性を重視するならMaverick・Scoutが有力な選択肢になる。「どちらが上か」という二項対立ではなく、要件によって組み合わせる発想が実務では合理的だ。

【要注意】よくある誤解と失敗パターン

誤解1: LMArena 1417のスコアはそのまま実力を示す

前述のとおり、このスコアは非公開の最適化版が記録したものだ。公開版は32位という現実がある。ELOスコアは「人間が好む文体」を測る軸が強く、タスク特定の実力とは別物だ。自分のユースケースに合わせたベンチマークで評価するのが正しいアプローチ。

誤解2: オープンソースだから何でも自由にできる

OSIの定義でのオープンソースではない。MAU制限、「Built with Llama」表示義務、EU制限が存在する。商用プロダクトへの組み込み前にライセンスを読むこと。

誤解3: Scoutで10Mトークン全部使えば何でも解決する

コンテキスト長が長くなるほど、推論コストとレイテンシが増加する。全量を流し込むよりも、必要な部分を絞り込む設計の方が実用的なケースが多い。また非常に長いコンテキストでは「Lost in the Middle」問題(中間の情報が抜け落ちやすい)が生じる可能性がある。コンテキスト長を最大活用する場合は、この点を念頭に置いてテストすること。

誤解4: EU在住者はLlama 4を一切使えない

エンドユーザーとして使う分には問題ない。制限が掛かるのは、EU域内に本拠を置く企業・個人が「モデルを使ってプロダクトを作る」場合だ。ただし解釈の余地があるため、EUで事業を展開する場合は法的確認を推奨する。

参考・出典


あわせて読みたい:


Llama 4を活用したAIエージェント導入のご相談は、株式会社Uravationまでお気軽にどうぞ。100社以上の生成AI導入支援実績があります。

この記事はAIgent Lab編集部がお届けしました。

Need help moving from reading to rollout?

この記事を読んで導入イメージが固まってきた方へ

Uravationでは、AIエージェントの要件整理、PoC設計、社内導入、研修まで一気通貫で支援しています。

この記事をシェア

X Facebook LINE

※ 本記事の情報は2026年3月時点のものです。サービスの料金・仕様は変更される可能性があります。最新情報は各サービスの公式サイトをご確認ください。

関連記事