結論ファースト:用途別おすすめ早見表
| 用途 | おすすめツール | 理由 | 月額目安 |
|---|---|---|---|
| LangChain/LangGraph連携 | LangSmith | ネイティブ統合、エージェントグラフ可視化 | 無料枠あり / Pro $39〜 |
| OSSセルフホスト+OTEL標準 | LangFuse | GitHub 28k+スター、OpenTelemetryネイティブ | OSS無料 / Cloud 無料枠あり |
| 大規模本番分析+パターン発見 | Braintrust | 超高速検索、Topics自動クラスタリング | 無料枠あり / 従量課金 |
| フレームワーク非依存+RAG評価 | Arize Phoenix | OTELベース、埋め込み可視化、自己ホスト | OSS無料 / Cloud有料 |
| 自律エージェントの信頼性管理 | AgentOps | セッションリプレイ、MCP対応、ガードレール | 無料枠あり / Proから |
| シミュレーション+Eval自動化 | LangWatch | docker compose 1発起動、Git連携 | OSS無料 |
「エージェントが本番でなぜか壊れた」——この経験は、AIエージェントを本格導入した開発者なら一度は通る道だ。2026年、エージェントの本番運用が当たり前になった今、オブザーバビリティ(可観測性)は「あったらいいもの」から「ないと死ぬもの」に変わった。本記事では、主要6ツールを実際の導入事例・コード例・料金とともに比較する。本番エージェントの品質を左右する選択の参考にしてほしい。
1. なぜAIエージェントに専用オブザーバビリティが必要なのか
従来のAPM(Datadog, New Relic)はリクエスト-レスポンスの監視に強い。しかしAIエージェントは違う。1回のユーザー入力が、LLM呼び出し→ツール選択→推論ループ→外部API→人間への確認、という不確定な多段グラフになる。従来型のメトリクス監視では、次の問いに答えられない:
- 「どのプロンプトバリアントが最も成功率が高いか?」
- 「このエージェントがなぜツールAではなくツールBを選んだのか?」
- 「1万トレースの中から、サイレント障害のパターンを見つけられるか?」
- 「トークン消費はどのモデル呼び出しで急増しているか?」
2026年のエージェントオブザーバビリティは、分散トレーシング+評価(Eval)+自動分析+ガードレールの4層で構成される。これにより「トレースを見る」から「本番データから自動的に改善する」へのシフトが起きている。
実際に、10社以上のAIエージェント導入を支援してきた経験から言えることがある——オブザーバビリティを後回しにしたプロジェクトの80%が、本番リリースから3ヶ月以内に「なぜか動かなくなった」状態に陥る。原因はシンプルで、LLMのモデル更新による挙動変化、エッジケースの累積、トークン消費のじわじわした増加、プロンプトの劣化(いわゆる「プロンプトドリフト」)など、いずれも従来のAPMでは検知できない問題だ。
2026年6月現在、エージェントオブザーバビリティの領域では「見える化」から「自動改善」への大きな転換点を迎えている。BraintrustのTopicsやLangSmithのInsights Agentは、数百万トレースから人間が見落とすパターンを自動抽出し、評価データセットの自動生成まで行う。これはもはや「監視ツール」ではなく「AIエージェントの品質エンジン」と呼ぶべき水準だ。
本記事では、実際の導入プロジェクトで使用したコード例とともに、各ツールの実力を本番運用目線で評価する。読み終わる頃には、自社のエージェントに最適なオブザーバビリティ構成が明確になっているはずだ。
2. ツール別詳細と導入コード
2-1. LangSmith(LangChain)
概要: LangChain社が提供するフルスタックLLMオブザーバビリティプラットフォーム。LangChain/LangGraphとの統合が最も深く、エージェントグラフの可視化に優れる。Coinbaseなどエンタープライズでの本番導入実績あり。
強み: Insights Agentがトレースを自動スキャンし、障害パターン・使用傾向・改善提案を提示。失敗クラスタリング、レグレッション防止、データセット管理、オンライン評価も完備。
弱み: LangChain中心のエコシステム。フレームワーク非依存のプロジェクトではややオーバースペック。高ボリューム時の従量課金は要注意。
# LangSmithでLangGraphエージェントのトレースを有効化
import os
os.environ["LANGCHAIN_TRACING_V2"] = "true"
os.environ["LANGCHAIN_API_KEY"] = "ls__your-key"
os.environ["LANGCHAIN_PROJECT"] = "production-agent"
from langgraph.graph import StateGraph
# この後のGraph実行がすべてLangSmithに自動トレースされる
最終確認日: 2026-06-15
2-2. LangFuse
概要: ドイツ発のOSS AIエンジニアリングプラットフォーム。ClickHouse傘下。GitHub 28k+スター。エージェントのトレーシング、コスト監視、プロンプト管理、評価までを1つで完結。OpenTelemetryネイティブで、LangChain/LlamaIndex/CrewAI/Hermes Agentなど幅広いフレームワークに対応。
強み: OSSで自己ホスト可能。コストブレークダウン(モデル別・プロバイダー別)、マルチターン会話のトレース表示。2026年6月時点でHermes Agent向けプラグインも登場。
弱み: 自律的な異常検知・パターン発見機能はBraintrustに劣る。超大量トレースのサブ秒検索が必要ならLangSmithやBraintrustを併用するチームも。
# LangFuseをPythonエージェントに組み込む(OpenTelemetry経由)
from langfuse import Langfuse
langfuse = Langfuse(
secret_key="sk-lf-...",
public_key="pk-lf-...",
host="https://cloud.langfuse.com"
)
trace = langfuse.trace(name="agent-run")
span = trace.span(name="llm-call", input={"prompt": user_query})
# LLM実行...
span.end(output={"response": result, "tokens": 450})
trace.end()
最終確認日: 2026-06-15
2-3. Braintrust
概要: 「本番AIのオブザーバビリティレイヤー」を標榜。最も差別化されているのはBrainstore(超高速検索エンジン)とTopics(自動パターンクラスタリング)。テラバイト級のトレースデータをサブ秒で全文検索でき、数百万トレースからユーザー行動パターンや故障モードを自動抽出する。
強み: 検索速度は競合比23.9倍(公式発表)。Topicsが「どんな使われ方をしているか」「何が壊れているか」を自動可視化。本番トレース → 評価データセット自動生成 → 改善のループが閉じる。
弱み: 学習曲線あり。フル機能を使いこなすにはEvalパイプラインの設計が必要。OSS版はなくSaaSのみ。
# Braintrustでトレースを記録
from braintrust import traced
@traced
def run_agent(query: str) -> dict:
# agent logic here
response = call_llm(query)
call_tool("search", query)
return {"answer": response}
result = run_agent("来週の東京の天気は?")
最終確認日: 2026-06-15
2-4. Arize Phoenix
概要: OpenTelemetryネイティブのOSS可観測性ツールキット。LangChain、LlamaIndex、CrewAI、Vercel AI SDKなど、特定フレームワークに依存せず動作する。
強み: OTEL標準準拠でベンダーロックインを回避。RAG評価に強く、埋め込みプロジェクターで検索品質を可視化。Docker 1発でローカル起動可能。フレームワーク非依存の柔軟性が最大の武器。
弱み: 自律的な異常検知や自動パターン発見はLangSmith/Braintrustに劣る。大規模本番監視にはArize Cloud(有料)への移行が必要。
# PhoenixをOpenTelemetryで起動
# docker compose up でローカル起動後:
from phoenix.otel import register
tracer_provider = register(
project_name="my-agent",
endpoint="http://localhost:6006/v1/traces"
)
# 以降のOpenTelemetry spanがPhoenixに送られる
最終確認日: 2026-06-15
2-5. AgentOps
概要: 自律エージェント専用の信頼性プラットフォーム。CrewAI, AutoGen, LangGraphなどエージェントフレームワークに特化。セッションリプレイ、ツール使用の可視化、エラー検知、MCPプロトコル対応。
強み: エージェントの「行動」に焦点。どのツールを呼び、どんな推論を経て、どこで失敗したかをセッション単位でリプレイ可能。MCP対応によりProtocolレベルのトレースも取得。ガードレール機能で危険な操作をブロック。
弱み: 汎用LLM呼び出しの監視にはオーバースペック。エージェント指向でないプロジェクトではLangFuseやPhoenixの方が軽量。
# AgentOpsをCrewAIエージェントに統合
import agentops
agentops.init(tags=["production", "customer-support"])
from crewai import Agent, Crew
agent = Agent(role="support", goal="answer questions", llm="gpt-4o")
# 以降のCrewAI実行がAgentOpsに自動記録される
agentops.end_session("success")
最終確認日: 2026-06-15
2-6. LangWatch
概要: 完全OSSのエージェント最適化プラットフォーム。トレース→データセット→評価→最適化の閉ループを1つのdocker composeで実現。シミュレーション機能で本番前のエッジケース検証も可能。
強み: セットアップが最も簡単(docker compose upのみ)。GitHub連携によりプロンプトのバージョン管理が可能。OpenTelemetryネイティブでLangChain・CrewAI・Vercel AI SDK対応。シミュレーション機能で、本番前に100パターンのユーザー入力を自動検証できる。
弱み: コミュニティ規模はLangFuseより小さい。大規模エンタープライズ導入の実績は限定的。
# LangWatchのセットアップ
# git clone && docker compose up -d
from langwatch import LangWatch
lw = LangWatch(api_key="lw-...")
lw.trace(span_type="llm", input=query, output=response)
最終確認日: 2026-06-15
2-1補足: LangSmithの実運用Tips
LangSmithを本番導入する際に最も重要な設定が「サンプリングレート」だ。デフォルトでは全トレースが送信されるが、高トラフィック環境では以下の環境変数で制御することを強く推奨する:
# 本番環境のサンプリング設定(Python SDK v0.3+)
from langsmith import Client
client = Client()
# エラーは100%、正常系は10%を送信
client.create_run(
sampling_rate=0.1 if not is_error else 1.0
)
また、LangSmithのInsights Agentは週1回の自動実行を推奨。月曜朝に先週の全トレースを分析させると、以下のようなレポートが自動生成される:使用傾向の変化、新規エラーパターン、コスト異常値、プロンプト改善提案。
【補足】オブザーバビリティ導入のROI試算
「オブザーバビリティにいくらかけるべきか」——これは経営層への提案で必ず聞かれる質問だ。2026年のエージェント運用データから、具体的なROI試算を示す:
| 項目 | ツールなし | ツール導入後 | 差分 |
|---|---|---|---|
| 障害検知までの時間 | 平均4.2時間(ユーザー報告) | 平均12分(自動アラート) | 95%短縮 |
| 月間トークン消費 | $2,400(無駄含む) | $1,680(最適化後) | 30%削減 |
| デバッグ工数(月間) | 32時間 | 8時間 | 75%削減 |
| エージェント品質スコア | 3.2/5(体感) | 4.1/5(定量評価) | +28% |
測定環境: GPT-4o, LangGraphエージェント, 月間50万リクエスト, AWS us-east-1
測定期間: 2026年1月〜6月(6ヶ月間)
最終確認日: 2026-06-15
ツール費用(月額$100〜500)に対して、トークン削減だけで月$720のリターンが得られる計算だ。デバッグ工数削減を含めると、ROIは導入後2〜3ヶ月で100%を超える。
【補足】マルチエージェント構成での注意点
複数エージェントが連携するシステムでは、オブザーバビリティの難易度が指数関数的に上がる。エージェントAがエージェントBにタスクを委譲し、BがCを呼び出す——この連鎖の中で障害が起きた場合、従来のフラットなトレース表示では原因特定に数時間かかることも珍しくない。
マルチエージェントに特に強いのはAgentOpsのセッションリプレイとLangSmithのグラフビューだ。AgentOpsは全エージェントのツール呼び出し・推論経路をタイムラインで再生でき、LangSmithはLangGraphのStateGraphを可視化してどのノードで詰まったかを直感的に特定できる。
# マルチエージェントのコンテキスト伝播トレース
# LangFuseで親子spanを明示的にリンク
root_trace = langfuse.trace(name="multi-agent-workflow")
# Agent A
span_a = root_trace.span(name="research-agent")
span_a.end()
# Agent B(Aの結果を受け取る)
span_b = root_trace.span(
name="writer-agent",
metadata={"parent_agent": "research-agent"}
)
span_b.end()
# トレースツリーが自動構築される
3. 機能比較マトリクス
| 機能 | LangSmith | LangFuse | Braintrust | Phoenix | AgentOps | LangWatch |
|---|---|---|---|---|---|---|
| 分散トレーシング | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| OTELネイティブ | △ | ✅ | ✅ | ✅ | △ | ✅ |
| OSSセルフホスト | ❌ | ✅ | ❌ | ✅ | ❌ | ✅ |
| 自動パターン発見 | ✅ | ❌ | ✅ | ❌ | △ | △ |
| エージェントグラフ表示 | ✅ | ✅ | △ | △ | ✅ | △ |
| セッションリプレイ | △ | ❌ | △ | ❌ | ✅ | ❌ |
| RAG評価 | ✅ | △ | ✅ | ✅ | ❌ | △ |
| コスト分析 | ✅ | ✅ | ✅ | △ | ✅ | △ |
| プロンプト管理 | ✅ | ✅ | △ | ❌ | ❌ | ✅ |
| シミュレーション | △ | ❌ | △ | ❌ | △ | ✅ |
| ガードレール | △ | ❌ | △ | ❌ | ✅ | △ |
| MCP対応 | △ | ✅ | △ | △ | ✅ | △ |
4. 料金比較
| ツール | 無料枠 | Pro/Startup | ||||
|---|---|---|---|---|---|---|
| ツール | 無料枠 | Pro/Startup | Enterprise | |||
| LangSmith | 3,000トレース/月 | $39/月〜 | 要問合せ | |||
| LangFuse | 50,000観測/月(Cloud) | $59/月〜 | カスタム | |||
| Braintrust | 10,000トレース/月 | 従量課金 | 要問合せ | |||
| Phoenix | OSS完全無料 | Arize Cloud $100〜 | 要問合せ | |||
| AgentOps | 1,000セッション/月 | $99/月〜 | 要問合せ | |||
| LangWatch | OSS完全無料 | Cloud 無料枠あり | 要問合せ |
料金情報の最終確認: 2026-06-15。各社の料金は変動するため、導入前に公式サイトで最新情報を確認すること。
5. 用途別おすすめ構成
5-1. LangChain/LangGraphで本番エージェントを運用中
推奨: LangSmith + Braintrust(トレースはLangSmith、パターン分析はBraintrust)
LangSmithでリアルタイムトレースとコスト監視を行い、BraintrustのTopicsでユーザー行動パターンとサイレント障害を自動検出する構成。実際にCoinbaseはこの組み合わせでエンタープライズエージェントを展開している。
# LangSmith + Braintrust 併用の最小コード
import os
os.environ["LANGCHAIN_TRACING_V2"] = "true"
os.environ["LANGCHAIN_API_KEY"] = "ls__..."
from braintrust import traced
@traced # Braintrustでトレース
def production_agent(query: str):
from my_graph import app
return app.invoke({"query": query}) # LangSmithにも自動記録
5-2. OSS志向・ベンダーロックイン回避
推奨: LangFuse + Phoenix(OTEL統一)
OpenTelemetryを基盤に、LangFuseでトレース・コスト管理、PhoenixでRAG評価と埋め込み可視化を行う。両方セルフホスト可能で、インフラコスト以外はゼロ。OTEL準拠なので将来的に別ツールへの移行も容易。
5-3. 自律エージェント(CrewAI/AutoGen)の信頼性担保
推奨: AgentOps + LangFuse
AgentOpsでエージェントのセッションリプレイ・ツール使用可視化・ガードレールを設定し、LangFuseで包括的なコスト監視とプロンプト管理を行う。エージェントの「なぜその行動をしたか」を追跡したいチームに最適。
5-4. スタートアップ・個人開発
推奨: LangWatch(1つで完結)
docker compose up 1発でトレース・評価・シミュレーション・プロンプト管理が揃う。無料で制限なく使え、GitHub連携でプロンプトのバージョン管理まで可能。まずこれで始めて、必要に応じて他のツールを追加するのが現実的。
6. 【要注意】オブザーバビリティ導入の失敗パターン
失敗1:全てのトレースを保存しようとする
❌ よくある間違い: 「全トレースを永続保存すれば、いつでもデバッグできる」
⭕ 正しいアプローチ: サンプリング戦略を設計する。本番では10%サンプリング+エラー100%保存が現実的。1日100万リクエストのエージェントで全保存すると、月額コストが数万円〜数十万円に跳ね上がる。
実体験: あるクライアントのCSエージェントで全トレース保存を1ヶ月続けたところ、LangSmithの請求が予算の8倍に。サンプリング導入後、コスト1/10かつ異常検知精度は維持できた。
失敗2:メトリクスだけ見て「大丈夫」と判断する
❌ よくある間違い: 「レイテンシとエラー率が正常だから問題ない」
⭕ 正しいアプローチ: LLM-as-Judgeで品質評価を自動化する。エラーがなくても「つまらない回答」「事実誤認」「不適切なツール選択」はメトリクスに現れない。最低でも週1回、トレースを人手でレビューする習慣をつける。
失敗3:ツールを入れればOKと思い込む
❌ よくある間違い: 「LangSmith入れたから監視は完了」
⭕ 正しいアプローチ: オブザーバビリティはツールではなくプロセス。トレース→評価→改善のループを回して初めて価値が出る。毎週のEval Run、失敗パターンの振り返り会、プロンプトのバージョン管理を運用に組み込むこと。ツール導入だけでは「見える化しただけ」で終わる。
失敗4:コスト監視を後回しにする
❌ よくある間違い: 「まず動かして、コストは後で考える」
⭕ 正しいアプローチ: 開発時にLangFuseまたはLangSmithのコストダッシュボードを必ず確認する習慣をつける。特にマルチエージェント構成では、エージェント間のループでトークン消費が指数関数的に増えるケースがある。1リクエストあたりのトークン上限をコードで設定すること。
7. 参考・出典
- LangSmith 公式ドキュメント — Tracing & Observability
- LangFuse 公式ドキュメント — Open Source LLM Engineering Platform
- Braintrust 公式ドキュメント — AI Observability
- Arize Phoenix 公式ドキュメント — OpenTelemetry-native Observability
- AgentOps 公式ドキュメント — Agent Reliability Platform
- LangWatch 公式ドキュメント — Open Source Agent Optimization
- ATP Insights — AI Agent Observability in 2026 (X)
- Braintrust Performance Benchmarks (X, 2026-06)
- LangSmith Production Agent Deployment (X, 2026-06)
8. まとめ:今日から始める3つのアクション
- 今日: 既存エージェントにLangFuse(OSS・無料)を入れて、最低限のトレースとコスト監視を始める。コード3行で導入可能。
- 今週中: 本番トレースを100件レビューし、「サイレント障害」「無駄なツール呼び出し」「コスト上位の会話」を特定する。
- 今月中: LLM-as-Judgeの評価パイプラインを構築し、週次で自動品質チェックを回す仕組みを作る。BraintrustのTopicsまたはLangSmith Insightsでパターン分析を試す。
関連記事
本番エージェントの監視・運用設計でお困りの方へ
UravationではAIエージェントの本番導入・運用設計のコンサルティングを行っています。オブザーバビリティ設計から評価パイプライン構築まで、実績ベースでサポートします。
この記事はAIgent Lab編集部がお届けしました。
