正直、この話をするのは少し気が引ける。
AIエージェント業界は今、「マルチエージェント」という言葉に酔っている。1体で足りないなら5体、5体で足りないなら20体。エージェントの数を増やせば増やすほど、複雑な業務を高精度でこなしてくれる。そんな期待が、2026年のエンタープライズAI市場を席巻している。
だが、Google DeepMindとMITの共同研究(arXiv: 2512.08296)は、まったく逆のことを示唆している。エージェントを増やしても性能は保証されない。むしろ劣化することすらある。
この記事では、マルチエージェントシステムの「協調コスト」という、誰もが薄々気づいているが正面から語りたがらない問題を掘り下げる。
マルチエージェントに企業が群がる3つの理由
まず、なぜこれほどマルチエージェントが注目されているのかを整理しよう。
理由1: ベンダーが売りたいから。単一エージェントより、オーケストレーション基盤のほうが単価が高い。Salesforce Agentforce、Microsoft Copilot Studio、AWS Bedrock AgentCore——大手クラウドベンダーは軒並みマルチエージェント管理プラットフォームを投入している。
理由2: 人間のチーム構造の比喩が直感的だから。「営業担当エージェント」「分析担当エージェント」「品質チェック担当エージェント」。役割分担すれば効率が上がるという、人間の組織論がそのまま適用できるように見える。
理由3: デモが映えるから。5つのエージェントがリアルタイムに会話しながらタスクを完了する様子は、投資家やCxOの心を掴む。だが、デモで1〜3秒だったレスポンスが、本番環境では10〜40秒に膨らむことを、プレゼンでは誰も言わない。
Google DeepMindの研究が暴いた「不都合な真実」
2025年12月にarXivで公開された論文「Towards a Science of Scaling Agent Systems」は、180のシステム構成を体系的にテストした大規模実験だ。OpenAI、Google、Anthropicの3社のLLMを使い、シングルエージェントと4種類のマルチエージェント構成(独立並列、中央集権型、分散型、ハイブリッド型)を比較した。
結論は明快だった。
「エージェントを追加することは両刃の剣である。特定の問題で性能を引き出す一方、他の問題では不要なオーバーヘッドと収穫逓減をもたらす」
——Google DeepMind & MIT, arXiv:2512.08296
とくに重要な発見が3つある。
発見1: 協調オーバーヘッドはエージェント数に対して指数的に増加する
エージェント間のやり取り(コンテキスト共有、タスク委譲、結果統合)にはトークンが消費される。このコストは線形ではなく指数的に増える。研究チームの測定では、マルチエージェント構成はシングルエージェントに対してトークンコストが2〜5倍に跳ね上がった。
発見2: エラーはカスケードする
エージェントAの小さな誤りが、エージェントBに伝播し、エージェントCで増幅される。論文では「Bag of Agents」(エージェントの寄せ集め)パターンで、エラー率がシングルエージェントの最大17倍に達するケースが報告された。
発見3: 「静的タスク」と「エージェンティックタスク」で最適解が異なる
コーディングクイズのような一問一答型タスクでは、複数エージェントの多数決(投票)が有効。しかし、情報収集→分析→意思決定→実行のような多段階タスクでは、協調コストが成果を食い潰す。
要するに、すべてのタスクにマルチエージェントが最適というのは幻想だ。
「協調コスト」の正体——5つの隠れた税金
マルチエージェントシステムを本番で運用すると、以下の「税金」が発生する。カタログには載っていない費用だ。
| 協調コスト | 内容 | 影響の目安 |
|---|---|---|
| トークン税 | エージェント間の会話・コンテキスト共有 | シングル比2〜5倍のAPI費用 |
| レイテンシ税 | 各ハンドオフで累積する応答遅延 | デモ1〜3秒→本番10〜40秒 |
| コンテキスト税 | ハンドオフ時の情報欠落・歪曲 | 最終出力の品質低下 |
| デバッグ税 | 障害の因果関係が複数エージェントに分散 | 障害対応時間の増大 |
| ガバナンス税 | 各エージェントの権限・監査証跡の管理 | コンプライアンスコスト増 |
Gartnerは2025年6月、「2027年末までにエージェンティックAIプロジェクトの40%以上が中止される」と予測した(Gartner, 2025年6月)。失敗の主因は技術の限界ではなく、コスト管理とガバナンスの不備だ。
マルチエージェントの華やかなデモの裏で、この協調コストが静かにプロジェクトを蝕んでいる。
Cursorが見つけた「正解のパターン」
すべてのマルチエージェントが失敗するわけではない。AI開発ツール企業のCursorは、大規模コード生成にマルチエージェントを活用し、成果を上げている。
彼らのアプローチが興味深いのは、「フラットな群れ」を明確に否定したことだ。エージェント同士が自由にタスクを拾い合う「Bag of Agents」方式は失敗し、プランナー+ワーカーの階層構造に切り替えたところ、品質が劇的に改善した。
これは人間の組織論とも一致する。優秀な個人を10人集めてもチームにはならない。明確な役割分担と指揮系統があって初めて機能する。
Cursorの事例から得られる教訓は3つ。
- 必ず「指揮官」を置く。フラットな分散型より、中央のプランナーが計画→委譲→統合する構造が安定する
- モデルは役割で使い分ける。計画にはGPT-5.2、実行にはClaude Opus——全エージェントに同じモデルを使う必要はない
- 人間のレビューポイントを設計に組み込む。完全自律は目指さない。要所で人間が介入する「ヒューマン・イン・ザ・ループ」が品質の生命線
Deloitteが描く「オーケストレーションの現実解」
Deloitteは2026年版テクノロジー予測レポート(Deloitte TMT Predictions 2026)で、マルチエージェント・オーケストレーションを主要トレンドの一つに挙げている。だが、その論調は楽観一辺倒ではない。
同レポートが強調するのは、通信プロトコルの乱立リスクだ。Google A2A、Anthropic MCP、Cisco主導のAGNTCYなど、エージェント間通信の規格が複数並立しており、「ウォールドガーデン」化の懸念がある。来年までに2〜3の主要規格に収斂するだろうとDeloitteは予測するが、現時点ではどれに賭けるかが企業にとってリスクだ。
また、「ガーディアンエージェント」という概念も紹介されている。タスクを実行するだけでなく、他のエージェントの挙動を監視・制御する役割を担うエージェントだ。人間が直接すべてのエージェントを監視するのは非現実的だから、AIにAIを見張らせる。メタ的だが、今のところ最も現実的なアプローチかもしれない。
私の結論——「1体で十分」をまず証明せよ
ここまで書いてきて、私の立場を明確にしておく。
マルチエージェントは手段であって、目的ではない。
「マルチエージェントを導入したい」という相談を受けるたびに、まず聞くのは「シングルエージェントで試しましたか?」だ。驚くほど多くのケースで、適切に設計された1体のエージェントが、5体のマルチエージェントシステムと同等以上の成果を出す。
これは技術の問題ではなく、設計思想の問題だ。
エージェントを増やす前に、以下を自問してほしい。
- このタスクは本当に並列分解できるか?順次処理ならシングルエージェントで十分
- エージェント間の情報共有は最小限で済むか?密結合が必要なら協調コストが爆発する
- 障害時の原因特定を、今のチームで30分以内にできるか?できないなら運用できない
Gartnerの予測通り、マルチエージェントプロジェクトの4割は中止されるだろう。だがそれは技術が未熟だからではない。「なぜマルチにするのか」を問わないまま走り出したからだ。
2026年のQ2に必要なのは、エージェントの数を増やすことではない。1体のエージェントの設計を磨き上げ、本当に複数が必要な局面だけ慎重にスケールすることだ。
地味な話だけど、これが本質だと思っている。
参考・出典
- Towards a Science of Scaling Agent Systems — Google DeepMind & MIT(参照日: 2026-03-31)
- ‘More agents’ isn’t a reliable path to better enterprise AI systems, research shows — VentureBeat(参照日: 2026-03-31)
- Gartner Predicts Over 40% of Agentic AI Projects Will Be Canceled by End of 2027 — Gartner(参照日: 2026-03-31)
- Unlocking exponential value with AI agent orchestration — Deloitte TMT Predictions 2026(参照日: 2026-03-31)
- Why Your Multi-Agent System is Failing: Escaping the 17x Error Trap — Towards Data Science(参照日: 2026-03-31)
- Multiagent Systems — Gartner(参照日: 2026-03-31)
あわせて読みたい:
- AIエージェント構築完全ガイド — 設計パターンから本番運用まで
- AIエージェント評価ツール3強比較 — LangSmith・Arize・Maxim
- AIエージェントの89%が本番に届かない本当の理由
ご質問・ご相談は お問い合わせフォーム からお気軽にどうぞ。
この記事はAIgent Lab編集部がお届けしました。