「能力が上がるほど、透明性が下がる。」
これがStanford AI Index 2026の見せた、AI業界の奇妙な現実だ。
Foundation Model Transparency Index(FMTI)が追跡するスコアは、2024年の平均58点から2025年には40点へと急落した。下がったのは業界全体の平均だが、最も大きく下落したのは最も能力の高いモデルを持つ組織だった。
なぜ最強のモデルが最も秘密主義になるのか。そしてそれは、AIを使う開発者にとって何を意味するのか。
FMTIスコアの崩壊 — 何が失われたのか
Foundation Model Transparency Indexは、AIモデルの透明性を100の指標で評価するStanfordの調査だ。訓練データ、計算リソース、モデルの能力、リスク評価、利用ポリシーなど、モデルの「中身」をどの程度公開しているかを測る。
2024年から2025年にかけての変化は顕著だった。
| 企業/組織 | 2024年スコア | 2025年スコア | 変化 |
|---|---|---|---|
| IBM | 91/100 | 95/100 | +4 |
| Meta (Llama 4) | 60/100 | 31/100 | -29 |
| OpenAI | 上位 | 下から2番目 | 急落 |
| xAI | 測定対象外 | 14/100 | — |
| Midjourney | 測定対象外 | 14/100 | — |
特徴的なのはMetaの転落だ。2023年のLlama 2でオープンウェイトモデルの透明性リーダーだったMetaが、Llama 4では60点から31点へと半減した。「オープンソース = 透明」という図式が崩れている。重みを公開することと、訓練データや訓練プロセスを開示することは、別の話だ。
xAIとMidjourney が共に14点という最低スコアに並んでいることも示唆的だ。この2社は「モデルの構築に使ったデータ、関連するリスク、そのリスクを低減するための取り組みについて一切情報を共有していない」とStanfordは指摘している。
唯一の例外はIBMだ。IBM Graniteシリーズは95点という最高スコアを維持している。外部研究者が訓練データを実際に再現できる十分な詳細を提供している唯一の組織と評価された。
最強モデルが最も不透明な理由 — 3つの仮説
この逆説には、いくつかの説明が考えられる。
まず、競合優位の防衛だ。訓練データのキュレーション、計算効率の最適化、ポストトレーニングの手法——これらはフロンティアモデルの性能を決める核心技術だ。公開すれば競合に模倣される。GPT-3の時代はOpenAIが技術詳細を論文で公開していたが、競争が激化するにつれて開示が減った。
次に、法的リスクの回避だ。訓練データに含まれる著作物を巡る訴訟が世界中で起きている。データの詳細を開示すれば、証拠として使われるリスクが生じる。不透明さが法的防衛戦略になっている側面がある。
そして、規制対応の回避だ。EUのAI法をはじめ、各国でAI規制が具体化しつつある。規制の多くは「高リスクAIシステム」の透明性要件を含む。能力の高いモデルほど規制対象になりやすく、透明性を下げることで規制の網を逃れようとしているという見方もある。
これらの理由が複合して、「能力が上がるほど公開が減る」という逆説的な状況を生んでいる。
オープンモデルの重要性が増す一方の矛盾
2025年から2026年にかけて、オープンウェイトモデルの実力は急伸した。Qwen 3.5、Gemma 4、Llama 4 Scout——これらはクローズドモデルとの性能差を急速に縮めている。Qwen系モデルの派生シェアは2026年2月時点で69%に達した。
しかし、FMTIのデータはオープンウェイトモデルの「透明性」についても疑問符を打つ。DeepSeek、Meta、Alibaba(Qwen)はいずれもオープンウェイトを公開しているが、FMTIスコアは下位半分に属している。重みの公開は透明性の必要条件だが、十分条件ではない。
95本の主要モデルのうち80本が訓練コードを公開していない事実は、業界全体の傾向を示している。訓練データ、訓練コード、計算量——これらがブラックボックスのまま、モデルだけが「オープン」という状態が常態化しつつある。
開発者が透明性を評価する実践的チェックリスト
この状況で、AIモデルを選定・採用する開発者は何を確認すればよいか。FMTIの指標を参考に、実務で使えるチェックリストを整理した。
訓練データの透明性(最重要)
# 確認すべき情報(公式ドキュメント・技術レポートで調べる)
必須:
□ 訓練データの大まかな内訳が公開されているか
(例: CommonCrawl XX%、GitHub XX%、書籍 XX%)
□ カットオフ日(最終データ更新日)が明示されているか
□ データフィルタリングの基本方針が説明されているか
あれば望ましい:
□ データカードが提供されているか(HuggingFaceのデータカード形式)
□ 除外したデータカテゴリが説明されているか
□ 著作権データの扱い方針が明示されているか
モデルの能力とリスク評価
# リスク評価の確認ポイント
□ モデルカードが存在するか(Anthropic Claude、Google Gemmaは提供)
□ 悪用のリスクについての評価が記載されているか
□ レッドチーム評価の結果が(概要でも)公開されているか
□ 既知の弱点・バイアスが明示されているか
□ 使用制限(TOS)が具体的に記述されているか
注意: xAI Grok、Midjourney は上記のほぼすべてが未公開
利用ポリシーの実務的確認
# 企業利用で確認必須の項目
□ プロンプト・会話データがトレーニングに使われるか
□ データをオプトアウトできるか(API利用時)
□ データ保存期間と地域(GDPR対応)
□ インシデント通知ポリシーが存在するか
□ SLA(稼働率保証)が明確か
IBM Granite: データ残留なし、エンタープライズSLA提供(参考)
OpenAI API: デフォルトでトレーニングなし(要確認)
Meta Llama 4(自己ホスト): サービス利用データの問題なし
透明性の低下はユーザーに何をもたらすか
透明性の問題は「倫理的な話」として語られがちだが、実際には実務リスクとして現れる。
訓練データが不明なモデルは、自分の知識がどの時点のものか、どの領域に偏りがあるかを把握しにくい。医療・法律・金融のような専門ドメインでは、このブラックボックス性が直接的なリスクになる。
また、規制対応の観点でも問題だ。EU AI法が本格施行されれば、高リスクAIシステムを利用する企業は、そのシステムの訓練データやリスク評価に関する情報を求められる可能性がある。モデルプロバイダーが非公開にしている情報を、使用者が規制当局に説明できないという状況が生じうる。
この先どうなるか
FMTIスコアが40点まで下落した事実は、市場の競争原理だけではAI業界の透明性は保てないことを示している。Stanfordのレポートはこの領域を「政策介入が最も効果的な分野」として名指しした。
現時点で見えている方向性は2つだ。一方では、IBM Graniteのようなエンタープライズグレードのモデルが「透明性」を競合優位にする路線。もう一方では、Gemma 4やQwen 3.5のような真に再現可能なオープンモデルが、研究・PoC用途での透明性ニーズを満たす役割を担う路線。
フロンティアモデルがますます「秘密主義」になる中、開発者の側でリスク評価能力を高める必要がある。FMTIのチェックリストは、その出発点として使える。
参考・出典
- Responsible AI — The 2026 AI Index Report — Stanford HAI(参照日: 2026-04-15)
- Transparency in AI is on the Decline — Stanford HAI(参照日: 2026-04-15)
- Transparency in AI is on the decline — Stanford Report(参照日: 2026-04-15)
- Foundation Model Transparency Index — Stanford CRFM(参照日: 2026-04-15)
- Stanford AI Index 2026: Capabilities Are Historic, Transparency Has Collapsed — Analytics Drift(参照日: 2026-04-15)
あわせて読みたい:
- AIエージェントのセキュリティ脅威Q1 2026レポート — エージェント利用に伴うリスク評価の全体像
- Anthropicの推論モデルとCoTの忠実性 — モデルの内部動作の透明性に関する研究
この記事を読んで導入するAIモデルの選定に迷っている方へ
UravationではAIエージェント導入の研修・コンサルを行っています。透明性・リスク評価の観点からのモデル選定支援もお気軽にご相談ください。
この記事はAIgent Lab編集部がお届けしました。