「オープンソースの動画生成モデルで本当に4Kが出せるのか?」という疑問を持ったことがある人は多いと思います。
2026年3月5日、Lightricksがその答えを突きつけてきました。LTX Video 2.3(通称 LTX 2.3)は22Bパラメータ・Apache 2.0ライセンスの動画生成モデルで、4K・50fpsの映像をオープンソースで生成できる初のモデルとして登場しました。Soraが招待制を継続し、Runway Gen-4.5がプロ向け有料サービスとして君臨する中、「無料で使える4Kモデル」の登場は開発者コミュニティに大きな反響を呼んでいます。
この記事では、LTX 2.3のスペックと実力を、Runway Gen-4.5およびSeedance 2.0との比較表を軸に整理し、RTX 4090を使ったローカル実行の手順まで解説します。
スペック比較
| 項目 | LTX 2.3 | Runway Gen-4.5 | Seedance 2.0 |
|---|---|---|---|
| パラメータ数 | 22B(DiT) | 非公開 | 非公開 |
| 最大解像度 | 4K(3840×2160) | 1080p | 1080p |
| 最大フレームレート | 50 fps | 24 fps | 24 fps |
| 最大尺 | 20秒 | 10秒 | 10秒 |
| 音声生成 | ネイティブ同期 | なし(別途) | ネイティブ同期 |
| ポートレート対応 | 1080×1920 | 1080×1920 | 1080×1920 |
| ライセンス | コミュニティ版(*注) | 商用有料 | 有料API |
| 料金(API/fal.ai) | $0.04〜0.06/秒 | クレジット制 | 約$0.05/秒 |
| ローカル実行 | 可(OSS) | 不可 | 不可 |
※ コミュニティライセンスは年間収益1,000万ドル未満の企業・個人向けに無償利用可。それ以上の企業はLightricksへ商用ライセンス要申請。ライセンス種別はApache 2.0ではなく「LTX Model Dev License(Community)」。最終確認日: 2026-03-27
解像度・品質で比較する
LTX 2.3の最大の差別化ポイントは、オープンソース初の「真の4K生成」です。Runway Gen-4.5とSeedance 2.0はいずれも最大1080p止まりで、4K映像が必要な場合は外部のアップスケーラーを使う必要があります。
LTX 2.3は新しいVAE(Variational Autoencoder)を採用しており、公式によると「微細なテクスチャ、髪の毛、テキスト、エッジディテールがより良く保存される」とされています。特に文字が映像中に入る場合(看板、字幕など)の品質改善は顕著で、従来のLTX 2.0では崩れがちだったテキストレンダリングが大幅に改善されています。
ただし正直に言うと、品質のピークはRunway Gen-4.5に軍配が上がります。Runway Gen-4.5はキャラクターの一貫性やシネマティックな映像品質で業界最高水準を維持しており、「絵的な美しさ」を最優先するなら依然として有料サービスの選択肢が合理的です。
「LTX-2 Proはオープン・開発者フレンドリーな4K+高fpsパイプラインとして最適」— Artificial Analysis, 2026年3月
AIエージェント周辺の動画生成ユースケースとの相性については、AIエージェント構築完全ガイドで解説しているマルチモーダル設計パターンも参考にしてください。
音声生成で比較する
LTX 2.3とSeedance 2.0はどちらも動画と音声を単一のアーキテクチャで同時生成します。「ボルトオン型」(動画生成後に音声を追加)ではないため、口の動きと音声のズレが発生しにくい構造です。
LTX 2.3はLTX 2.0から新しいボコーダーを採用しており、「アーティファクトと予期しないドロップが減少した」とされています。一方でSeedance 2.0はUnified Multimodal Audio-Videoアーキテクチャを搭載しており、音響のサウンドデザインはSeedanceのほうが自然だというレビューが多い状況です。
Runway Gen-4.5は現時点で音声生成機能を持たず、音声付き動画を作るには別ツールとの組み合わせが必要です。
ローカル実行コストで比較する
LTX 2.3はオープンウェイトなのでローカル実行できます。これが他の2つとの決定的な違いです。
VRAMの目安は以下の通りです。
| 精度 | 目安VRAM | 対応GPU例 | 備考 |
|---|---|---|---|
| bf16(フル精度) | 44GB以上 | A100, RTX 6000 Ada | 4K生成フル品質 |
| fp8(量子化) | 24GB前後 | RTX 4090, RTX 5090 | 品質は微差、速度2倍 |
| GGUF(高圧縮) | 12GB前後 | RTX 3090, RTX 4080 | 解像度上限あり |
RTX 4090(24GB)でfp8を使うと、10秒・1080pのクリップ生成に約4〜6分かかります。4K生成には推論時間が長くなるため、量産用途にはクラウドAPIとローカル開発の組み合わせが現実的です。
筆者のおすすめ
用途別に以下が判断の目安になります。
- 4K映像が必要、かつコスト重視 → LTX 2.3(OSS唯一の4K対応、ローカル実行可)
- シネマティック品質最優先 → Runway Gen-4.5(視覚品質のピークはここ)
- 音声込みのナラティブ動画・API統合 → Seedance 2.0(マルチショット、音声同期に強い)
- AIエージェントから動画生成を呼び出したい → LTX 2.3 API(約$0.04/秒で安価、Hugging Face InferenceやFAL.ai経由で利用可)
LTX 2.3のセットアップ手順
方法1: ComfyUIで使う(推奨・初心者向け)
ComfyUI Managerを使うのが最も手軽です。ComfyUIを起動し、Manager → Install Custom Nodes で「LTXVideo」を検索してインストール、ComfyUIを再起動します。
モデルファイルの配置先に注意してください。LTX 2.3のウェイトはチェックポイントファイルではなく、専用ローダーを使うため、checkpoints/フォルダに置かないようにしましょう。
# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。
# モデルファイルの正しい配置先
ComfyUI/models/diffusion_models/ # モデルウェイト(.safetensors)
ComfyUI/models/vae/ # VAE
ComfyUI/models/text_encoders/ # T5-XXL テキストエンコーダー
# NG: checkpoints/に置くとKeyErrorが発生する
# ComfyUI/models/checkpoints/ ← ここには置かない
# 確認: ComfyUIのノード検索(ダブルクリック)で「LTX」と入力
# 以下が表示されればOK:
# - LTXVModelLoader
# - LTXVSampler
# - LTXVScheduler
ポイント: ファイル名を変更しないこと。ローダーが部分文字列マッチングを使うため、リネームするとロードエラーになります。
方法2: 公式Pythonライブラリで使う(開発者向け)
APIから動画を生成したい場合や、AIエージェントのツールとして組み込む場合は、公式のltx-pipelinesパッケージを使います。
# リポジトリのクローンとセットアップ
# 動作環境: Python 3.11+, CUDA 12.4+, VRAM 24GB以上(fp8使用時)
git clone https://github.com/Lightricks/LTX-2.git
cd LTX-2
uv sync --frozen
source .venv/bin/activate
# テキストから動画を生成する基本コード
# 動作環境: Python 3.11+, ltx-pipelines 0.3.0+
# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。
from ltx_core.loader import LTXV_LORA_COMFY_RENAMING_MAP, LoraPathStrengthAndSDOps
from ltx_pipelines.ti2vid_two_stages import TI2VidTwoStagesPipeline
from ltx_core.components.guiders import MultiModalGuiderParams
# ディストレーションLoRAを設定(高速推論向け)
distilled_lora = [
LoraPathStrengthAndSDOps(
"/path/to/ltx-2.3-distilled-lora.safetensors",
0.6, # LoRA強度(0.5〜0.8が実用的)
LTXV_LORA_COMFY_RENAMING_MAP
),
]
pipeline = TI2VidTwoStagesPipeline(
checkpoint_path="/path/to/ltx-2.3-checkpoint.safetensors",
distilled_lora=distilled_lora,
spatial_upsampler_path="/path/to/upsampler.safetensors",
gemma_root="/path/to/gemma", # テキストエンコーダー(Gemma-2B)
loras=[],
)
# ガイダンスパラメータ(品質と多様性のバランス調整)
video_guider_params = MultiModalGuiderParams(
cfg_scale=3.0, # テキスト忠実度(2.0〜4.0)
stg_scale=1.0, # 空間的整合性
rescale_scale=0.7,
modality_scale=3.0, # 映像と音声のバランス
stg_blocks=[29],
)
pipeline(
prompt="東京の夜景、高層ビル群、雨、4K、シネマティック",
output_path="output.mp4",
seed=42,
height=720, # 4K生成は height=2160 に変更(VRAM 44GB以上必要)
width=1280,
num_frames=121, # 約5秒(24fps換算)
num_inference_steps=40, # 品質重視:40〜50、速度重視:20〜30
video_guider_params=video_guider_params,
)
方法3: fal.ai APIで使う(クラウド実行)
ローカルGPUがない場合や量産用途にはクラウドAPIが便利です。fal.aiはLTX 2.3のマネージドエンドポイントを提供しており、1080p fastバリアントが$0.04/秒、1080p標準が$0.06/秒、4K(2160p)は$0.16〜0.24/秒で利用できます(最終確認日: 2026-03-27)。
# fal.ai経由でLTX 2.3を呼び出す
# 動作環境: Python 3.11+, fal-client>=0.4.0
# pip install fal-client
# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。
import fal_client
import os
# 環境変数でAPIキーを管理(ハードコード禁止)
# FAL_KEY=your_api_key python3 this_script.py
def generate_video(prompt: str, duration_seconds: int = 5) -> str:
"""LTX 2.3で動画を生成し、URLを返す"""
result = fal_client.subscribe(
"fal-ai/ltx-video",
arguments={
"prompt": prompt,
"video_size": {
"width": 1280,
"height": 720,
},
"num_frames": duration_seconds * 24, # 24fps換算
"fps": 24,
"num_inference_steps": 30, # API版は30ステップで十分
"model_name": "ltx-2.3",
},
)
return result["video"]["url"]
# 使用例
video_url = generate_video("AIロボットが工場で作業している様子、4K品質")
print(f"生成完了: {video_url}")
【要注意】よくある失敗パターン
モデルファイルをcheckpoints/に置いてしまう
❌ ComfyUI/models/checkpoints/ltx-2.3.safetensors
⭕ ComfyUI/models/diffusion_models/ltx-2.3.safetensors
LTX 2.3はCheckpointLoader(従来のSD系)とは異なる専用ローダーを使います。checkpoints/に置くとノードが認識しません。
4K生成でVRAMが足りずクラッシュ
❌ RTX 4090(24GB)でbf16の4K生成を試みる
⭕ fp8量子化バリアントを使うか、まず1080pで検証してからVRAMを確認する
bf16フル精度での4K生成には44GB以上のVRAMが必要です。RTX 4090で4Kを出したい場合はfp8バリアントを使いましょう。VRAM使用量が約25〜35%削減されます。
プロンプトを短く書きすぎる
❌ 「東京、夜、雨」
⭕ 「東京の渋谷交差点、夜景、雨、車のヘッドライトが路面に反射している、シネマティック、4K、slow motion」
LTX 2.3は「4倍大きなテキストコネクタ」で複雑なプロンプトを処理できます。短すぎるプロンプトではモデルの能力が活かせず、平凡な映像になります。
LoRAのウェイト名を変更する
❌ ltx-2.3-distilled_renamed.safetensors
⭕ Lightricksが配布したファイル名をそのまま使う
ローダーは部分文字列マッチングでファイルを特定します。リネームするとKeyErrorが発生します。
参考・出典
- LTX-2.3: Introducing LTX’s Latest AI Video Model — Lightricks公式 (参照日: 2026-03-27)
- GitHub: Lightricks/LTX-2 — 公式Pythonリポジトリ (参照日: 2026-03-27)
- Lightricks/LTX-2.3 — Hugging Face モデルカード (参照日: 2026-03-27)
- LTX-2.3 Day-0 support in ComfyUI — ComfyUI Blog (参照日: 2026-03-27)
- AI Video Model Comparison 2026 — Artificial Analysis (参照日: 2026-03-27)
まとめ:今日から始める3つのアクション
- 今日やること: ComfyUI Managerで「LTXVideo」をインストールし、公式サンプルワークフロー(
LTX-2.3_T2V_I2V_Two_Stage_Distilled.json)で動作確認する - 今週中: fal.ai APIのフリートライアルを使い、Pythonスクリプトから動画生成を呼び出してみる。AIエージェントのツールとして組み込める形を検証する
- 今月中: プロジェクトの用途に合わせてLTX 2.3 vs Runway vs Seedanceを実際に比較評価し、ローカル実行かAPI実行かを決定する
あわせて読みたい:
- AIエージェント構築完全ガイド — マルチモーダル対応エージェントの設計パターン
- AIエージェントツール比較ガイド — Dify・n8n・LangChainの選び方
AIエージェント導入・AI研修のご相談は 株式会社Uravation(お問い合わせ) からお気軽にどうぞ。