「AIエージェントを本番に出したけど、何がどこで失敗しているのかまったく見えない」
これは、AIエージェントの可観測性(オブザーバビリティ)ツールを選ぶ前に多くのチームが陥る状況です。LLMの呼び出しログ、マルチステップのトレース、評価パイプライン──これらを本番環境でどう整備するかは、AIエージェント開発の質を大きく左右します。
Langfuse、Arize Phoenix、LangSmithはいずれも人気のLLMオブザーバビリティツールですが、料金体系・セルフホスト対応・フレームワーク連携において大きな差があります。この記事では、実際の料金計算と本番導入の観点から3ツールを徹底比較し、チームの規模と要件に合った選び方を解説します。
結論ファースト:用途別おすすめ早見表
まず全体の結論から示します。詳細な比較は後続のセクションで掘り下げます。
| 用途・状況 | おすすめツール | 主な理由 | 月額目安(5名チーム) |
|---|---|---|---|
| スタートアップ・費用最小化 | Langfuse Core | ユーザー数無制限、$29固定 | $29〜 |
| LangChain中心・LangGraph使用 | LangSmith Plus | ネイティブ統合、デバッグ効率が高い | $195〜($39×5名) |
| 完全セルフホスト・規制対応 | Arize Phoenix OSS | 100%OSSでデータ社外に出さない | インフラ費用のみ |
| フレームワーク混在・拡張性重視 | Langfuse Pro | OpenTelemetry標準準拠、SDK豊富 | $199〜 |
| 超大規模トレース(10M+/月) | Arize Phoenix | スパン単価最安($0.01/1k spans) | スケールで有利 |
AIエージェント構築の基本設計については、AIエージェント構築完全ガイドで体系的にまとめています。オブザーバビリティはその重要な一要素です。
1. 各ツールの概要と実装例
Langfuse
概要: 2023年創業のドイツ発OSSプロジェクト。MITライセンスで公開されており、クラウド版とセルフホスト版の機能が完全に一致している点が最大の差別化要素です。
強み: ユーザー数無制限の料金体系、OpenTelemetry対応、Prompt Management機能
弱み: LangChain特化機能はLangSmithに劣る、ClickHouseベースでインフラ要件あり
以下は、OpenAI APIの呼び出しをLangfuseでトレースする最小実装です。
# 動作環境: Python 3.10+, langfuse>=2.0, openai>=1.30
# pip install langfuse openai
# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。
import os
from langfuse import Langfuse
from langfuse.openai import openai # ドロップイン置換
langfuse = Langfuse(
public_key=os.environ["LANGFUSE_PUBLIC_KEY"],
secret_key=os.environ["LANGFUSE_SECRET_KEY"],
host="https://cloud.langfuse.com" # セルフホストは自サーバーURLに変更
)
# openai.chat.completions.create はそのまま使えるが、自動でトレースされる
response = openai.chat.completions.create(
model="gpt-4o",
messages=[{"role": "user", "content": "AIエージェントとは何ですか?"}],
# Langfuse追加パラメータ(オプション)
name="test-call",
tags=["production", "qa"],
user_id="user-123"
)
print(response.choices[0].message.content)
# Langfuseダッシュボードで自動的にトレースが可視化される
ポイント: `from langfuse.openai import openai` とインポートを変えるだけで、既存コードに手を加えずトレースが開始されます。動作環境: Python 3.10+, langfuse 2.x
最終確認日: 2026-04-11
Arize Phoenix
概要: Arize AI社が開発するOSSのLLMオブザーバビリティプラットフォーム。OpenTelemetryを標準プロトコルとして採用しており、フレームワーク依存が少ない設計が特徴です。
強み: 完全OSSかつElastic License v2(セルフホスト自由)、OpenTelemetry準拠でベンダーロックイン最小
弱み: PostgreSQLベースでClickHouseより大規模には不利、クラウド版の無料枠が25k spans/月と少ない
# 動作環境: Python 3.10+, opentelemetry-sdk, openinference-instrumentation-openai
# pip install arize-phoenix openinference-instrumentation-openai opentelemetry-sdk
# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。
import phoenix as px
from openinference.instrumentation.openai import OpenAIInstrumentor
from opentelemetry import trace as trace_api
from opentelemetry.exporter.otlp.proto.http.trace_exporter import OTLPSpanExporter
from opentelemetry.sdk import trace as trace_sdk
from opentelemetry.sdk.trace.export import SimpleSpanProcessor
# ローカルPhoenixサーバーを起動(開発環境用)
session = px.launch_app()
# OTLPエクスポーターの設定(本番ではPhoenixサーバーのエンドポイントを指定)
exporter = OTLPSpanExporter(endpoint=session.url + "/v1/traces")
tracer_provider = trace_sdk.TracerProvider()
tracer_provider.add_span_processor(SimpleSpanProcessor(exporter))
trace_api.set_tracer_provider(tracer_provider)
# OpenAIの自動インストルメンテーション(1行追加だけ)
OpenAIInstrumentor().instrument()
import openai
client = openai.OpenAI()
response = client.chat.completions.create(
model="gpt-4o",
messages=[{"role": "user", "content": "エージェントのオブザーバビリティとは?"}]
)
print(response.choices[0].message.content)
# http://localhost:6006 でPhoenixダッシュボードが確認できる
ポイント: OpenTelemetryベースなので、LangChain・LlamaIndex・CrewAIなど主要フレームワークは全て `OpenAIInstrumentor().instrument()` 1行で対応可能。
最終確認日: 2026-04-11
LangSmith
概要: LangChainが開発するクローズドソースのLLMデバッグ・評価プラットフォーム。LangChain/LangGraphとのネイティブ統合が最大の強みです。
強み: LangChain/LangGraphとのシームレスな統合、Agent Builderとの連携、詳細なデバッグUI
弱み: クローズドソース(セルフホストはEnterpriseのみ)、ペルシート課金でチームが大きいほど高額
# 動作環境: Python 3.10+, langchain>=0.2, langsmith>=0.1
# pip install langchain langchain-openai langsmith
# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。
import os
from langchain_openai import ChatOpenAI
from langchain_core.messages import HumanMessage
# LangSmith自動有効化(環境変数を設定するだけ)
os.environ["LANGCHAIN_TRACING_V2"] = "true"
os.environ["LANGCHAIN_API_KEY"] = os.environ["LANGSMITH_API_KEY"]
os.environ["LANGCHAIN_PROJECT"] = "my-agent-project"
llm = ChatOpenAI(model="gpt-4o")
response = llm.invoke([HumanMessage(content="LangSmithの主な使い途は?")])
print(response.content)
# LangSmith UIで自動的にrun chainが記録される
ポイント: 環境変数3行を設定するだけで、全LangChainの呼び出しが自動トレースされます。LangGraph AgentとToolCallも自動的に可視化されます。
最終確認日: 2026-04-11
2. 機能比較
| 機能 | Langfuse | Arize Phoenix | LangSmith |
|---|---|---|---|
| ライセンス | MIT(OSSコア) | ELv2(完全OSS) | クローズドソース |
| セルフホスト | 無料(全機能) | 無料(全機能) | Enterpriseのみ有料 |
| LLMトレーシング | OpenTelemetry対応 | OpenTelemetry準拠 | LangChain専用最適化 |
| フレームワーク対応 | LangChain/LlamaIndex/Dify他 | 全主要フレームワーク | LangChain/LangGraph専用 |
| 評価パイプライン | あり(LLM-as-Judge) | あり(オンラインevals) | あり(Dataset+Evaluator) |
| Prompt Management | あり(バージョン管理+A/B) | なし | あり(Playground連携) |
| データ保持期間(無料) | 30日 | 15日 | 14日 |
| ユーザー数(有料) | 無制限 | 無制限 | シート数課金 |
3. 料金比較
料金情報の最終確認: 2026-04-11(各公式サイトより)
| プラン | Langfuse | Arize Phoenix | LangSmith |
|---|---|---|---|
| 無料枠 | 50,000 units/月、2ユーザー | 25,000 spans/月(AX Free) | 5,000 traces/月、1ユーザー |
| スタータープラン | $29/月(Core)無制限ユーザー | $50/月(AX Pro)50k spans | $39/席/月(Plus) |
| 本番向け | $199/月(Pro)SOC2対応 | カスタム(AX Enterprise) | $39/席/月 + overage |
| 超過料金 | $8/100k units | $10/M spans、$3/GB | $0.50/1k traces(14日保持) |
| セルフホストOSS | 無料(MITライセンス) | 無料(ELv2ライセンス) | Enterprise(有料)のみ |
実際のコスト試算(5名チーム、月50万spans):
- Langfuse Core: $29(ユーザー数関係なし)
- Arize Phoenix OSS: インフラ費用のみ($50〜$200程度)
- LangSmith Plus: $195($39×5名)+ overage
10名チームになるとLangSmithは$390ベースとなり、差はさらに開きます。ただし、LangSmithの価値はLangChain環境での開発体験にあるため、単純なコスト比較だけで判断すべきではありません。
4. 用途別おすすめ
セルフホスト必須・規制対応 → Arize Phoenix OSS
金融・医療・行政など、データを社外サーバーに送れない環境では、完全OSSのArize PhoenixをKubernetesにデプロイする構成が最も現実的です。
# docker-compose.yml(Arize Phoenix セルフホスト最小構成)
# 注意: 本番環境で使用する前に、必ずテスト環境で動作確認してください。
version: "3.8"
services:
phoenix:
image: arizephoenix/phoenix:latest
ports:
- "6006:6006"
- "4317:4317" # OTLPポート(gRPC)
environment:
- PHOENIX_WORKING_DIR=/phoenix/data
volumes:
- phoenix_data:/phoenix/data
restart: unless-stopped
volumes:
phoenix_data:
LangChain/LangGraph中心開発 → LangSmith
LangGraphのAgentを開発・デバッグする場合は、LangSmithのネイティブ統合が圧倒的に便利です。ツール呼び出しのステップ単位での可視化、Playground上でのプロンプト修正、Datasetを使った評価自動化はLangSmith固有の強みです。コストは高くても生産性で回収できることが多いです。
マルチフレームワーク・コスト重視 → Langfuse
LangChain・Dify・カスタムPythonエージェントが混在する環境では、OpenTelemetry経由で全てを統合できるLangfuseが最も柔軟です。Prompt Managementでプロンプトのバージョン管理とA/Bテストもできるため、中長期の運用コストを下げられます。
5. 【要注意】ツール選定でよくある失敗パターン
失敗1:無料枠の数字だけで選ぶ
❌ 「LangSmithは5,000 traces無料だから十分」と思って本番に出したら翌月$500の請求
⭕ 本番のspans/月を推定してから料金計算。1回のLLM呼び出しでも複数spanが記録されることを忘れない
なぜ重要か: LangSmithの「trace」はLangChainのchain実行1回を指しますが、内部のLLM呼び出しやツール呼び出しも全てカウントされます。実際の本番ワークロードでは、見積もりの3〜5倍になることが多いです。
失敗2:LangChain以外でLangSmithを使う
❌ 独自Pythonエージェントにwrapperを書いてLangSmithと無理やり統合
⭕ フレームワーク非依存環境ではLangfuseかPhoenixのOpenTelemetryネイティブ統合を使う
なぜ重要か: LangSmithのSDKはLangChain前提で設計されています。他フレームワークとの統合は公式サポートが薄く、バージョンアップのたびに壊れるリスクがあります。
失敗3:セルフホストを過小評価する
❌ 「OSSだから無料」とインフラコストを見落とす
⭕ Langfuse/PhoenixのセルフホストはClickHouse/PostgreSQLの運用コストが別途必要(小規模なら月$50〜、本番規模なら$200〜$500)
なぜ重要か: OSSのライセンス費用は0でも、データベース・ストレージ・メンテナンス工数のTCOを含めると、マネージドプランより高くなる場合があります。
失敗4:評価パイプラインなしで本番運用を続ける
❌ トレースログは貯めているが、エージェントの回答品質を定量評価していない
⭕ 3ツールとも評価機能があるので、LLM-as-Judgeや人間評価をパイプラインに組み込む
参考・出典
- AI Observability Pricing Compared(Pydantic) — pydantic.dev(参照日: 2026-04-11)
- Langfuse vs. Arize AI and Arize Phoenix(Langfuse公式) — langfuse.com(参照日: 2026-04-11)
- Arize Phoenix Pricing(公式) — phoenix.arize.com(参照日: 2026-04-11)
- LangSmith Pricing 2026(CheckThat) — checkthat.ai(参照日: 2026-04-11)
- Langfuse Pricing 2026(CheckThat) — checkthat.ai(参照日: 2026-04-11)
まとめ:今日から始める3つのアクション
- 今日やること: 自分のエージェントの月間spans数を概算し、3ツールの無料枠と照らし合わせる。LangChain中心ならLangSmith Developer無料、マルチフレームワークならLangfuse Hobby(50k units)から試す
- 今週中: 本番ワークロードの1/10をLangfuse or Phoenixにトレース送信するテスト環境を構築。実際のspans数を計測してコストを試算する
- 今月中: 評価パイプライン(LLM-as-Judge)を1本試験導入。エージェント回答品質の定量スコアが取れれば、改善サイクルが劇的に速くなります
あわせて読みたい:
- AIエージェント構築完全ガイド — ゼロから設計するための体系的なアプローチ
- AIエージェントツール比較 — フレームワーク選定の全体像
AIエージェントの本番運用にお困りの場合は、株式会社Uravation(お問い合わせ) にご相談ください。100社以上のAI導入支援実績があります。
この記事はAIgent Lab編集部がお届けしました。