Luma Labsが2026年3月5日、テキスト・画像・動画・音声をまたぐクリエイティブ制作を一気通貫で実行するAIエージェント「Luma Agents」を正式リリースした。基盤となるのは同社が新たに開発した「Unified Intelligence」モデルファミリーの第1弾「Uni-1」。広告代理店大手のPublicis GroupeやServiceplan Group、ブランドではAdidas、Mazda、サウジのAI企業Humainがすでに運用を開始している。
注目すべきは、Luma Agentsが単なる画像生成や動画生成ツールではなく、企画立案から最終納品までの制作プロセス全体を自律的に進行する「エージェント」として設計されている点だ。従来のAIツールが「テキストはこのモデル、画像は別のモデル」とモダリティごとに分断されていたのに対し、Lumaは推論と生成を単一のアーキテクチャに統合するアプローチを採った。クリエイティブ業界のワークフローを根本から変える可能性がある。
Luma Agentsとは何か — 発表の全容
Luma Agentsは、エージェンシー・マーケティングチーム・スタジオ・エンタープライズ向けに設計されたAIコラボレーターだ。CEO兼共同創業者のAmit Jain氏はこう語る。
「クリエイティブチームがツールのオーケストレーションに時間を費やす必要はない。彼らは”創ること”に時間を使うべきだ。エージェントはショートカットではなく、コンテクストを維持し、実行を調整し、プロジェクトを前に進めるコラボレーターだ」
Luma Agentsの主要な能力は以下の通りだ。
- エンドツーエンドの制作実行 — 企画・コンセプト探索からプレビジュアライゼーション、脚本・コピー開発、ソーシャル向けカットダウン、ナレーション生成、多言語ローカライズまでを一貫して処理
- モダリティ横断のコンテクスト維持 — テキスト・画像・動画・音声のすべてにわたって共有コンテクストを保持。プロジェクト全体の一貫性を担保する
- 自律的な自己批評と反復改善 — 生成したアウトプットを自ら評価し、品質を反復的に改善するループを内蔵
- 複数のAIモデルとの連携 — 自社のRay 3.14に加え、GoogleのVeo 3、ByteDanceのSeedream、ElevenLabsの音声モデル、Sora 2、Kling 2.6など外部モデルともオーケストレーション可能
- エンタープライズ対応 — IP所有権は顧客に帰属、著作権リスク低減のための自動コンテンツレビュー、公開前の人間レビューワークフロー、法的トレーサビリティを備える
Uni-1のアーキテクチャ — 何が技術的に新しいのか
Luma Agentsの頭脳を担うのが「Uni-1」モデルだ。技術的にはdecoder-onlyの自己回帰型Transformerで、言語トークンと画像トークンを単一の共有トークン空間内でインターリーブ(交互配置)する。テキストと画像が同一シーケンス内でファーストクラスの入出力として機能する設計だ。
Amit Jain氏はTechCrunchに対してこう説明している。
「Uni-1は言語で思考し、ピクセルで想像し描画できる。我々はこれを”ピクセルの中の知性(intelligence in pixels)”と呼んでいる」
従来のマルチモーダルAIシステムは、テキスト理解用のLLM、画像生成用のdiffusionモデル、動画生成用の専用モデルをパイプラインで繋ぐ「チェーン」方式が主流だった。この方式ではモデル間でコンテクストが失われ、一貫性のあるクリエイティブ制作が困難だった。
Uni-1はこれを根本的に変える。推論(reasoning)と描画(rendering)を単一のアーキテクチャ内で密結合し、以下の能力を実現している。
- 構造化された内部推論 — 画像合成の前後で、指示の分解・制約の解決・構図の計画を行う
- 時間的一貫性 — 時系列にわたるコヒーレンスを維持
- 空間推論 — 3D空間内のオブジェクト配置やシーン補完を理解
- リファレンスガイド生成 — 参照画像のアイデンティティや構図を保持したまま新たなアセットを生成
- マルチターン改善 — 会話的にクリエイティブの方向性を調整可能
ベンチマーク面では、推論を伴うビジュアル編集タスクを評価するRISEBenchでSOTA(最先端)を達成。また、画像生成の学習が逆にきめ細かな視覚理解能力も向上させるという興味深い結果も報告されている。
Jain氏はこうも述べている。
「知性はモダリティによって分断されるべきではない。統合されたシステムは全体論的に推論する。同じモデルが思考し、想像し、描画できるとき、クリエイティブプロセス全体にわたって一貫した振る舞いをする知性に近づく」
すでに動いている現場 — Publicis、Serviceplan、Mazda
Luma Agentsはすでに実戦で成果を出している。
Serviceplan Group — 20か国以上での展開
Serviceplan GroupのグローバルCCO、Alexander Schill氏はこう語る。
「Lumaのおかげで、20か国以上にまたがるチームがよりスムーズに協業し、優れた仕事をより速く開発できるようになった」
同社はLuma Agentsを戦略立案、クリエイティブ開発、プロダクションワークフローの全工程に導入している。
Mazda — 少人数チームで実現した大規模キャンペーン
南アフリカの20人未満のブティックエージェンシーが、Luma Agentsを使ってMazda MX-5が数十年にわたって進化する様子を描いたキャンペーンを制作した。従来であれば、ビンテージ車両の調達、複数ロケーションでの撮影、数週間のポストプロダクションが必要だったプロジェクトを、2週間以内で完成させた。
グローバルキャンペーンの圧縮
もうひとつの事例では、あるグローバルブランドの1年間・複数国にわたるキャンペーン(本来1,500万ドル規模)を、Luma Agentsが多市場向けにローカライズされた成果物としてわずか40時間・2万ドル未満で再現した。制作時間で99.5%、コストで99.9%の削減に相当する驚異的な数字だ。
Publicis Groupe
Publicis Groupe(中東・トルコ)もローンチパートナーとして参画しており、既存のクライアントワークにLuma Agentsを組み込んでいる。
開発者が押さえておくべきポイント
Luma AgentsはAPI経由で利用可能だ。現時点では段階的ロールアウトが進行中で、安定したアクセスとワークフローへの影響を最小限に抑えながら拡大している。
開発者にとって特に重要なのは以下の点だ。
APIアクセス
Luma APIのドキュメントは lumalabs.ai/api で公開されている。既存のLuma APIユーザーであれば、Agentsの機能を既存のワークフローに統合できる。
マルチモデルオーケストレーション
Luma Agentsの強みは、単体のモデルとしての性能だけでなく、複数の外部モデルを統合的に指揮できる点にある。現時点で連携が確認されているモデルは以下の通り。
- Luma Ray 3.14 — 世界初の推論型動画モデル(自社)
- Google Veo 3 — 動画生成
- OpenAI Sora 2 — 動画生成
- ByteDance Seedream — 画像生成
- Kuaishou Kling 2.6 — 動画生成
- Nano Banana Pro — 画像生成
- ElevenLabs — 音声・ナレーション生成
- GPT Image 1.5 — 画像生成
これらを開発者自身がチェーンする必要はなく、Luma Agentsが自律的に最適なモデルを選択・調整して制作を進める。
エンタープライズ向けのセーフガード
商用利用において重要なポイントとして、以下のセーフガードが組み込まれている。
- 生成物のIP所有権は100%顧客に帰属
- 著作権リスク低減のための自動コンテンツレビュー
- 人間の関与を法的に証明できるトレースドキュメント
- 公開前の人間レビューを必須とするワークフロー
クリエイティブAIの競争地図はどう変わるか
Lumaの動きは、AI業界全体の「エージェント化」の流れと軌を一にしている。OpenAI、Google、Anthropicがそれぞれコーディングやリサーチのエージェントを推進する中、Lumaはクリエイティブ制作という領域でエージェントの実用化を先行させた。
特筆すべきは、LumaがシリーズCで9億ドルを調達し、累計調達額11億ドル・評価額40億ドルに達しているという資金力だ。Runway、Pika、Stability AIといったクリエイティブAIの競合と比較しても、「エージェント」というレイヤーまで踏み込んだのはLumaが最初だ。
ただし、注意点もある。前述のMazdaキャンペーンや「40時間で1,500万ドル相当のキャンペーン」という数字はインパクトが大きいが、AIが生成するクリエイティブの品質が人間のトップクリエイターの仕事と完全に置き換わるレベルにあるかは、まだ検証が必要だ。特に、ブランドの微妙なトーン&マナーやカルチャーへの配慮が求められる高度なクリエイティブワークにおいて、Luma Agentsの「自律性」がどこまで信頼に足るかは、今後の事例の積み重ねを待つ必要がある。
それでも、Uni-1アーキテクチャが示す「推論と生成の統合」というアプローチは技術的に正当な方向性であり、今後のマルチモーダルAIの標準的なアーキテクチャになる可能性がある。開発者にとっては、単一モデルの性能を追うだけでなく、複数モデルのオーケストレーションをいかに設計するかという視点が今後ますます重要になるだろう。