ニュース

Luma Uni-1完全解説|マルチモーダル統合AIの技術と活用法

Luma Uni-1完全解説|マルチモーダル統合AIの技術と活用法

この記事の結論

Luma AIが発表したUnified Intelligenceモデル「Uni-1」の技術アーキテクチャ、ベンチマーク結果、API活用法を解説。テキスト・画像を単一トークン空間で処理する次世代マルチモーダルAIの全貌に迫る。

2026年3月5日、Luma AIが「Unified Intelligence」と呼ぶ新しいAIモデルファミリーの第1弾「Uni-1」をリリースした。

一言で言えば、テキストと画像を同じトークン空間で扱えるマルチモーダルAIだ。従来のように言語モデルと画像生成モデルを別々に用意してパイプラインで繋ぐ必要がない。1つのモデルが「理解」と「生成」を同時にこなす。

正直、この発表には驚いた。これまでマルチモーダルAIといえば、テキスト→画像の一方向変換か、複数モデルのオーケストレーションが主流だった。Uni-1はそのどちらでもない。テキストと画像のトークンをインターリーブ(交互配置)しながら、1回のフォワードパスで処理する。

AIエージェントの基本概念や構築パターンについては、AIエージェント構築完全ガイドで体系的にまとめています。

従来のマルチモーダルAIと何が違うのか

ここが最も重要なポイントだ。従来のアプローチとUni-1の違いをテーブルで整理する。

項目 従来(パイプライン型) Uni-1(統合型)
アーキテクチャ 言語モデル + 拡散モデル(別々) decoder-only autoregressive transformer(単一)
トークン空間 テキストと画像で別々 共有トークン空間にインターリーブ
生成方式 拡散プロセス(ノイズ除去) トークン単位の逐次生成
理解と生成 別モデルが担当 同一モデルが1回のパスで処理
コンテキスト保持 モデル間の受け渡しで断絶 会話全体でコンテキスト維持
マルチターン編集 毎回ゼロからプロンプト 会話の流れで段階的に修正可能

要するに、GPT Image 1.5やNano Banana Proと同じ「自己回帰型画像生成」の系譜だが、Lumaの強みはクリエイティブワークフロー全体をカバーする「エージェント」と組み合わせた点にある。

decoder-only autoregressive transformerとは

少し技術的な話になるが、これは大規模言語モデル(GPTシリーズなど)と同じ基本構造だ。次のトークンを予測する、という仕組みでテキストも画像も生成する。拡散モデルのようにノイズから画像を復元するのではなく、左から右へ、トークンを1つずつ出力していく。

これにより、テキストの途中に画像を挟んだり、画像の途中にテキストの指示を入れたりすることが原理的に可能になる。Uni-1はこの特性を活かして、「推論しながら描く」ことができる。

ベンチマークで見るUni-1の実力

Uni-1はRISEBench(Reasoning-Informed Visual Editing)ベンチマークで最高スコアを記録し、Nano Banana 2やGPT Image 1.5を上回ったと報告されている(The Decoder報道、参照日: 2026-03-13)。

RISEBenchは画像編集における推論能力を4つの軸で評価する。

  • 時間的推論(Temporal): ピアノの経年変化など、時系列の変化を正しく表現できるか
  • 因果的推論(Causal): ある操作の結果として画像がどう変わるべきかを理解しているか
  • 空間的推論(Spatial): 複数オブジェクトの配置やレイアウトを正確に制御できるか
  • 論理的推論(Logical): 複雑な指示を分解し、矛盾なく実行できるか

また、物体認識タスク(ODinW-13)ではGoogleのGemini 3 Proに匹敵する性能を示したとされる。生成だけでなく「理解」の精度も高いことが、統合アーキテクチャの恩恵だろう。

ただし、まだ明らかになっていない点もある。動画や音声のマルチモーダル処理のベンチマーク結果は公開されていない。Uni-1の公式ページでは「ビデオ、音声エージェント、インタラクティブなワールドシミュレーター」への拡張を示唆しているが、具体的な性能データは今後の発表を待つ必要がある。

Luma Agentsとの関係 ― エージェントが変えるクリエイティブワークフロー

Uni-1だけでも強力だが、Lumaが本当に狙っているのは「Luma Agents」だ。

Luma Agentsは、Uni-1をコアエンジンとして、さらにRay 3.14(動画生成)、Google Veo 3、ByteDanceのSeedream、ElevenLabsの音声モデルなど外部モデルも統合的にオーケストレーションする。ブリーフ(指示書)を渡すと、テキスト・画像・動画・音声を跨いだクリエイティブ制作を一気通貫で実行する。

2026年3月5日の発表時点で、すでにPublicis Groupe、Serviceplan Group、Adidas、Mazdaなどのグローバル企業が導入を開始している。

エンタープライズ向けセーフガード

企業導入で気になる知的財産・法務面について、Lumaは以下の対策を明示している。

  • IP所有権: 生成コンテンツの知的財産権は顧客に帰属
  • 著作権リスク低減: 自動コンテンツレビュー機能
  • 法的トレース: 人間の関与を証明するドキュメント自動生成
  • 公開前レビュー: 人間による確認ワークフローが必須
  • インフラ: エンタープライズグレードのクラウド基盤

API料金とプラン ― 開発者は何から始められるか

Luma Agents APIは現在公開済みで、以下の料金体系で利用できる(料金情報の最終確認: 2026-03-13)。

サブスクリプションプラン

プラン 月額 エージェント利用 主な用途
Plus $30/月 基本利用 個人クリエイター
Pro $90/月 4x利用量 フリーランス・小規模チーム
Ultra $300/月 15x利用量 プロダクション
Enterprise カスタム 無制限(要相談) 大規模組織

API従量課金(クレジット制)

APIはクレジットベースの従量課金。主な参考価格は以下の通り。

  • Luma Photon(画像生成): Photon Flashで1枚$0.002、Photonで1枚$0.015(1080p) — 競合と比較して大幅に低価格
  • 動画生成(Ray 3.14等): 解像度・モデルにより4〜280クレジット
  • 音声合成: 1,000文字あたり21クレジット

注意すべき点として、Luma APIに入力したデータと生成した出力は、ユーザーが明示的に許可しない限りトレーニングには使用されない。

開発者がUni-1 APIを試す最短ルート

以下は、Luma APIを使ってUni-1の画像生成を試すPythonコードの例だ。

# 動作環境: Python 3.10+, requests
# 必要パッケージ: pip install requests
# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。
import os
import requests

API_KEY = os.environ.get("LUMA_API_KEY")  # 環境変数から取得
BASE_URL = "https://api.lumalabs.ai/v1"

headers = {
    "Authorization": f"Bearer {API_KEY}",
    "Content-Type": "application/json"
}

# テキストから画像を生成
payload = {
    "model": "uni-1",
    "prompt": "A futuristic city at sunset, photorealistic, 4K",
    "aspect_ratio": "16:9"
}

response = requests.post(
    f"{BASE_URL}/generations/image",
    json=payload,
    headers=headers
)

if response.status_code == 200:
    result = response.json()
    print(f"Generation ID: {result.get('id')}")
    print(f"Status: {result.get('status')}")
else:
    print(f"Error: {response.status_code} - {response.text}")

ポイント:

  • APIキーはLUMA_API_KEY環境変数に保存する(ハードコード厳禁)
  • 詳細なAPIドキュメントはdocs.lumalabs.aiを参照
  • 生成は非同期。レスポンスのステータスをポーリングで確認する設計

よくある誤解

「Uni-1は動画も音声もすべて1モデルで生成できる」

現時点ではテキストと画像の統合がUni-1の守備範囲だ。動画はRay 3.14、音声はElevenLabsなど外部モデルと連携する。Luma Agentsがオーケストレーション層として複数モデルを束ねる設計であり、Uni-1単体で全モダリティをカバーするわけではない。将来的な拡張は示唆されているが、まだ実現していない。

「拡散モデルより画質が劣る」

自己回帰型の画像生成は「拡散モデルに比べて品質が落ちる」と思われがちだが、RISEBenchの結果を見る限り、論理的推論を含む複雑なタスクではむしろ優位性がある。ただし、フォトリアリスティックな描写の「質感」については、用途によって拡散モデルが勝る場面もある。万能ではない。

「個人開発者には手が出ない」

月額$30のPlusプランから利用可能で、API従量課金もPhoton Flashの画像生成で1枚$0.002と、試しやすい価格帯だ。Build Tierであればクレジット購入型で初期コストを抑えられる。

a16z生成AIアプリTop 100レポートでも動画生成の台頭が指摘されており、Uni-1のようなマルチモーダル統合モデルへの注目は高まっています。

結局どう活用すればいいのか

Uni-1(とLuma Agents)は、以下のようなユースケースで力を発揮する。

1. 広告クリエイティブの大量バリエーション生成

ブリーフを渡すだけで、テキストコピー・画像・動画を一括生成し、複数バリエーションから選べる。Publicis GroupeやAdidasが導入している理由はここにある。手作業で1パターンずつ作っていた工程が、数十パターンの自動生成に変わる。

2. マルチモーダルなプロトタイピング

アプリのUIモックアップをテキストで指示し、そのまま画像生成、さらに動画でインタラクションのデモを作る ― というワークフローが1つのプラットフォームで完結する。

3. Eコマースの商品画像自動生成

商品写真をアップロードし、「白背景に切り替え」「モデル着用イメージを生成」「バナー用にテキスト入り画像を生成」といった指示をマルチターンで出せる。コンテキストが保持されるので、毎回最初から説明し直す必要がない。

コスト効率を重視する場合は、Gemini 3.1 Flash-Liteの低コスト推論も選択肢として検討する価値があります。

すぐに試すなら

まずはlumalabs.aiでアカウントを作成し、Plusプラン($30/月)で触ってみるのが最短だ。API連携を視野に入れるなら、API公式ページからBuild Tierのクレジットを購入して、上記のコード例を動かしてみよう。

参考・出典

この記事はAIgent Lab編集部がお届けしました。

あわせて読みたい:

ご質問・ご相談は お問い合わせフォーム からお気軽にどうぞ。

Need help moving from reading to rollout?

この記事を読んで導入イメージが固まってきた方へ

Uravationでは、AIエージェントの要件整理、PoC設計、社内導入、研修まで一気通貫で支援しています。

この記事をシェア

X Facebook LINE

※ 本記事の情報は2026年3月時点のものです。サービスの料金・仕様は変更される可能性があります。最新情報は各サービスの公式サイトをご確認ください。

関連記事