ai-agents

agent-evaluation

observability

llmops

ai-harness

comparison

2026年の本番チーム向けトップAIエージェント評価・可観測性ハーネス

LangSmith、Braintrust、Langfuse、Arize Phoenix、Galileo、DeepEval、OpenAI Agent Evals、Ragas、Heliconeのデータに基づくランキング。さらに、ローカルファーストのAIワークスペースハーネスとしてMCPlatoがどこに位置づくかを解説。

公開日 2026-05-14

本番環境のAIエージェントは、デモと同じ失敗の仕方をしない。

デモの失敗とは、モデルが弱い回答を出すことだ。本番エージェントの失敗とは、誤ったツールを呼び出す、手順を黙って飛ばす、14分間ループする、予算を消費する、ハンドオフを誤る、古いコンテキストを取得する、あるいはワークフローテストに一度だけ通って翌日にリグレッションすることだ。だからこそ、2026年の本番チームにはプロンプトログ以上のものが必要になる。必要なのは評価と可観測性のハーネス、すなわちトレースを取得し、振る舞いを採点し、バージョンを比較し、リグレッションを表面化し、人間のレビューを開発に戻すシステムである。

この記事では、2026年の本番チーム向けに主要なAIエージェント評価・可観測性ハーネスをランキングする。

LangSmith
Braintrust
Langfuse
Arize Phoenix / Arize AX
Galileo
DeepEval / Confident AI
OpenAI Agent Evals
Helicone
Ragas

MCPlatoは直接の可観測性ベンダーとしてではなく、評価ハーネスを取り巻く補完的なローカルファーストAIワークスペースハーネスとして別枠で扱う。

AIエージェント評価 / 可観測性ハーネスとは何か？

この比較では、AIエージェント評価・可観測性ハーネスを、チームが次の5つの本番上の問いに答えるためのプラットフォームまたはフレームワークと定義する。

何が起きたのか？ エージェントのステップ、ツール呼び出し、モデル呼び出し、検索、ハンドオフ、セッション、コスト、レイテンシ、エラーをトレースする。
それは良かったのか？ コード評価器、LLM-as-judge、人間のレビュー、フィードバック、ドメイン固有メトリクスで出力と軌跡を採点する。
リグレッションしたのか？ デプロイ前にデータセットに対して反復可能な評価を実行し、デプロイ後にオンラインの振る舞いを監視する。
デバッグできるのか？ 失敗したトレースを調査し、プロンプト/モデル/ツールのバージョンを比較し、本番障害をテストケースへ変換する。
自社スタックに合うのか？ SDK、CI/CD、OpenTelemetry、既存の可観測性、ガバナンス要件と統合する。

最良のハーネスは、トレース + 評価データセット + 実験 + 本番監視 + 人間のフィードバックを組み合わせる。より限定的なものも価値はあるが、フルの本番制御ループというより、ログ用プロキシ、テストライブラリ、またはRAGメトリクスツールキットに近い。

方法論

このランキングは、マルチステップのLLMおよびエージェントシステムを構築する本番チームを優先している。採点は定性的であり、2026年5月14日時点で公開されている製品ページ、ドキュメント、価格ページ、インテグレーション、オープンソースリポジトリ、公開企業/顧客情報に基づく。

主な採点軸は次のとおり。

軸	確認した内容
エージェントトレースの深さ	ネストされたトレース、ツール呼び出し、ハンドオフ、セッションビュー、軌跡デバッグ
評価ワークフローの成熟度	データセット、実験、オンライン/オフライン評価、LLM-as-judge、人間のレビュー、スコア追跡
本番可観測性	コスト、レイテンシ、トークン、エラー、ダッシュボード、アラート、フィードバック、監視
CI/CDリグレッション対応	反復可能な評価実行、テストゲート、比較ワークフロー
OpenTelemetry / エコシステム適合	OTel、OpenInference、SDK、フレームワーク統合、ベンダーニュートラルな取り込み/エクスポート
デプロイの柔軟性	SaaS、セルフホスティング、オープンソース、エンタープライズ向けデプロイ制御
価格の透明性	公開価格と明確な利用モデル
エンタープライズ対応	RBAC、SSO、監査ログ、プライバシー制御、サポート、コンプライアンス主張
開発者体験	セットアップ速度、ドキュメント品質、SDKの使いやすさ、ローカル反復

捏造された指標は避ける。価格、導入実績、売上、顧客数、ベンチマーク数値が公開されていない場合は、その旨を明記する。

1. LangSmith — 本番エージェントチーム向け総合ベスト

最適な対象: LangChain、LangGraph、または近接するPython/JavaScriptスタックでエージェントを構築し、トレース、評価、データセット、監視、デプロイ信頼性のための成熟したオールインワンシステムを必要とするチーム。

LangSmithが1位なのは、エージェント構築者向けの本番ハーネスとして最も完成度が高いものの一つだからだ。可観測性製品は、LLMアプリとエージェントのトレース、監視、デバッグ、運用可視性を重視している。¹ 評価ドキュメントでは、データセット、実験、自動評価器、時間をまたいだシステム挙動比較のワークフローを扱っている。²

主な機能

マルチステップワークフロー向けのエージェントおよびLLMトレース。
評価データセットと実験実行。
自動評価器と人間のレビューワークフロー。
レイテンシ、コスト、エラー、品質シグナルの本番監視。
LangChainおよびLangGraphプロジェクトとの強い適合性。
使用量ベースおよびチーム向けプランを含む公開価格ページ。³

強み

LangSmith最大の利点は網羅性である。多くのチームはLangChainやLangGraphから始め、その周囲の運用レイヤーを必要とする。LangSmithは、ローカルデバッグからトレース調査、評価データセット、本番監視までの最短経路を提供する。

エージェントチームに特に強い理由は、エージェントの失敗が出力レベルではなく軌跡レベルで起きることが多いからだ。最終回答は問題なさそうに見えても、中間のツール呼び出しが無駄なコスト、危険なアクション、脆い計画を示している場合がある。LangSmithのトレースと評価ワークフローは、その種の調査に向けて設計されている。

制限

LangSmithはLangChain/LangGraphエコシステム内で最も魅力的である。完全にベンダーニュートラル、オープンソース、またはセルフホスト優先の制御プレーンを求めるチームは、LangfuseやPhoenixを好むかもしれない。価格は公開されているが、最終コストは単一の定額ではなく利用量とプラン詳細に依存する。

価格 / 公開指標

LangChainはLangSmithの価格を公開している。³ LangSmith単体の公開顧客数や売上指標は、必要な情報源からは確認できなかった。

2. Braintrust — 評価ファーストプラットフォームのベスト

最適な対象: 評価を中核的な開発ワークフローとして扱うプロダクトおよびエンジニアリングチーム。データセット、実験、リグレッション、人間のレビュー、本番トレースのフィードバックループを重視するチーム。

Braintrustはこのランキングで最も評価中心のプラットフォームである。ホームページでは、実験、データセット、ロギング、プロンプト、プレイグラウンド、人間のレビューを通じてAI製品を評価し、出荷し、改善する製品として位置づけている。⁴ また、より広範な可観測性インフラへ標準化するチームにとって重要なOpenTelemetry統合も文書化している。⁵

主な機能

反復可能な評価のためのデータセットと実験。
オンラインおよびオフラインのスコアリングワークフロー。
人間のレビューとアノテーションループ。
プロンプトとモデルの比較。
本番ログとトレースのフィードバックを評価に戻す仕組み。
OpenTelemetry統合。⁵
公開顧客ページとケーススタディ。⁶

強み

Braintrustは、評価が後付けではない場合に最も強い。例、トレース、フィードバック、エッジケースを永続的なデータセットへ変換することを促す。これは本番エージェントに適した考え方だ。すべての失敗は将来のリグレッションテストになるべきである。

信頼性を示す材料も強い。BraintrustはSeries Aラウンドを公開発表し、自社サイトに顧客事例を掲載している。⁷⁶ これらは製品性能指標ではないが、市場導入と投資家の信頼を示している。

制限

BraintrustはLangfuse、Phoenix、DeepEval、Ragasほどオープンソースファーストではない。可観測性レイヤー全体をセルフホストしたい、または完全なOSSサーバーを検査したいチームには、LangfuseやPhoenixの方が魅力的に見えるだろう。また評価ファーストであるため、直近の課題がゲートウェイレベルのリクエストロギングやコスト分析なら、Heliconeの方が導入は速いかもしれない。

価格 / 公開指標

Braintrustは価格を公開している。⁸ 正確な顧客数、売上、利用量は、必要な情報源では公開されていない。

3. Langfuse — オープンソース / セルフホスト型オールラウンドハーネスのベスト

最適な対象: LLM可観測性、トレース、プロンプト管理、評価、データセット、実験のために、オープンソースでセルフホスト可能なプラットフォームを求めるチーム。

Langfuseは最も強力なオープンソースのオールラウンド選択肢である。LangfuseのGitHubリポジトリは公開され、⁹ 製品価格も公開され、¹⁰ セルフホスティングのドキュメントはデプロイ選択肢を明確にしている。¹¹ また、エージェント可観測性が標準テレメトリへ収れんする中で重要性を増すネイティブOpenTelemetry統合も備える。¹²

主な機能

オープンソースのLLM可観測性プラットフォーム。
トレース、セッション、ユーザー追跡、スコア。
プロンプト管理、データセット、実験。
自動評価とLLM-as-judgeワークフロー。¹³
ネイティブOpenTelemetry統合。¹²
セルフホスティング対応。¹¹

強み

Langfuseは、オープンソースの透明性、セルフホスティング、現代的な評価ワークフロー、広い可観測性範囲という珍しい組み合わせを提供する。これはセキュリティ意識の高いチーム、規制産業、即時のベンダーロックインを避けたいエンジニアリング組織にとって魅力的である。

異種スタックにも適合する。エージェントが一つのフレームワークだけで構築されていなくても、Langfuseはトレースと評価のレイヤーとして中央に置ける。

制限

セルフホスティングは強力だが、運用上は無料ではない。チームはデプロイを実行し、保護し、アップグレードし、スケールさせる必要がある。高度なガバナンス、アラート、チーム横断導入については、完全管理型エンタープライズプラットフォームより多くの組み立てが必要になる可能性もある。

価格 / 公開指標

Langfuseは価格とセルフホスティング情報を公開している。¹⁰¹¹ 公開売上や顧客数指標は、必要な情報源からは確認できなかった。

4. Arize Phoenix / Arize AX — OpenTelemetryとOpenInference志向スタックのベスト

最適な対象: Phoenixによるオープンソース開発可観測性と、Arize AXによるエンタープライズ本番AI可観測性を求めるチーム。特にOpenTelemetryやOpenInference型の計装を重視するチーム。

Arizeは本格的な本番可観測性プレイヤーであり、PhoenixはLLM可観測性エコシステムで最も重要なオープンソースプロジェクトの一つである。PhoenixはAI可観測性と評価向けに位置づけられ、¹⁴ Arizeのエージェント可観測性資料は、トレース、ツール呼び出し、エージェントステップ、本番監視に焦点を当てている。¹⁵ PhoenixのGitHubリポジトリは公開されている。¹⁶

主な機能

Phoenixのオープンソース可観測性および評価ワークフロー。¹⁴¹⁶
Arize AXのエンタープライズAI可観測性。
ツール呼び出し、トレース、マルチステップ挙動のエージェント可観測性。¹⁵
OpenTelemetry統合。¹⁷
OpenInferenceとOTel計装の文脈。¹⁸
Arizeの公開資金調達発表によるエンタープライズ信頼性。¹⁹

強み

Arizeの利点は可観測性の深さにある。機械学習可観測性の背景を持ち、LLMとエージェント可観測性へ積極的に進出してきた。Phoenixはチームにオープンソースの入口を与え、AXは本番エンタープライズへの道を提供する。

OpenTelemetryのストーリーも強い。企業がサービス横断でトレースとメトリクスを標準化するにつれ、エージェントテレメトリは孤立したブラックボックスに留まるべきではない。ArizeのOTelとOpenInference志向はこの流れに合っている。

制限

Phoenix/AXの分担は、単一のSaaSファースト製品より明確なアーキテクチャ判断を必要とする場合がある。Phoenixは開発とオープンソースワークフローに魅力的で、AXはエンタープライズ本番レイヤーである。チームはそれぞれをライフサイクルのどこに置くか決めなければならない。

価格 / 公開指標

Phoenixはオープンソースである。Arize AXのエンタープライズ価格は、必要な情報源では公開されていない。ArizeはAI評価・可観測性インフラ構築に向けた7,000万ドルのSeries Cを公開発表している。¹⁹

5. Galileo — エンタープライズ向けエージェント評価プラットフォームのベスト

最適な対象: オープンソース部品から自前の評価プラットフォームを組み立てることなく、管理型のエージェント評価、ワークフロー可視性、ガードレール、ダッシュボード、監視を求めるエンタープライズチーム。

Galileoは自社をエンタープライズAI評価・可観測性プラットフォームとして位置づけている。²⁰ 公開価格情報、²¹ 公開ケーススタディ、²² Google Cloudの顧客事例を持つ。²³ エージェント評価のローンチ発表は、信頼性の高いAIエージェントを開発者が構築できるようにすることへ明確に焦点を当てている。²⁴

主な機能

マルチステップエージェントワークフロー向けのエージェント評価。²⁴
AIシステム向け可観測性ダッシュボード。
品質、コスト、レイテンシ、エラーの監視。
ガードレールと評価ワークフロー。
エンタープライズケーススタディと管理型デプロイ志向。²²²³

強み

Galileoの位置づけは明確だ。本番AI向けのエンタープライズ級評価と可観測性である。エージェント固有の評価ワークフローを求めつつ、OSSトレース、カスタムメトリクス、ダッシュボードを自分たちで組み立てたくないチームに特に関係が深い。

Google Cloudの顧客事例は有用な信頼性シグナルである。エンタープライズ購入者は機能一覧と同じくらい、運用成熟度やパートナーシップを重視することが多いからだ。²³

制限

GalileoはLangfuse、Phoenix、DeepEval、Helicone、Ragasほどオープンソース中心ではない。ローカルファーストの制御、セルフホスティングの透明性、フレームワークレベルのテストコードを求めるチームは他の選択肢を好むかもしれない。公開技術詳細は製品領域によって差があり、一部のエンタープライズ条件には営業との会話が必要である。

価格 / 公開指標

Galileoは価格情報を公開している。²¹ 詳細な顧客数、売上、プラットフォーム利用指標は、必要な情報源からは確認できなかった。

6. DeepEval / Confident AI — コードファーストのエージェントテストフレームワークのベスト

最適な対象: LLMアプリとエージェントに対してpytest風の評価を求め、必要に応じてダッシュボード、コラボレーション、可観測性のための管理型プラットフォームも使いたい開発者。

DeepEvalはConfident AIによるコードファーストの評価フレームワークである。ホームページとGitHubリポジトリはオープンソースフレームワークを中心に据え、²⁵²⁶ Confident AIはより広範なプラットフォーム、ドキュメント、価格を提供している。²⁷²⁸²⁹

主な機能

オープンソースのLLM評価フレームワーク。
LLMアプリケーション向けのユニットテスト風評価。
回答の正確性、ハルシネーション、RAG、エージェント挙動のメトリクス。
CIに適した開発者ワークフロー。
ダッシュボードとコラボレーションのためのConfident AIプラットフォーム。²⁸

強み

DeepEvalは、評価をコードで扱いたいエンジニアリングチームに最も推薦しやすい選択肢の一つである。開発者がすでに理解している思考モデル、すなわちテストを書き、テストを実行し、ビルドを失敗させ、リグレッションを直す、という流れに自然に対応する。

そのため、本番前検証に強い。チームがすべてのプロンプト、エージェントワークフロー、検索変更について、マージ前に評価スイートを通過させたいなら、DeepEvalは候補リストに入る。

制限

DeepEval単体は完全な本番可観測性プラットフォームと同じではない。本番トレースの取り込み、アラート、長時間セッション分析、組織全体の監視には、Confident AIまたは別の可観測性レイヤーが必要になる場合がある。

価格 / 公開指標

DeepEvalはGitHub上でオープンソースである。²⁶ Confident AIはプラットフォーム価格を公開している。²⁹ 公開顧客数や利用指標は、必要な情報源からは確認できなかった。

7. OpenAI Agent Evals — OpenAIネイティブのエージェント構築者向けベスト

最適な対象: 主にOpenAIのAgentsスタックで構築しており、モデルとエージェントランタイムに近い場所で評価、トレース、トレース採点、可観測性統合を使いたいチーム。

OpenAIのAgent Evalsガイドは、トレース、採点器、データセット、評価実行を用いたエージェントワークフロー評価に焦点を当てている。³⁰ Agentsガイド、可観測性統合、トレース採点ドキュメントは、OpenAIネイティブなエージェントを構築し調査するためのより広いシステムを示している。³¹³²³³

主な機能

トレース、データセット、採点器を用いたエージェント評価ワークフロー。³⁰
エージェント構築ドキュメントとランタイムガイダンス。³¹
エージェントトレース向け可観測性統合。³²
ワークフローレベル評価のためのトレース採点。³³
オープンソースのopenai/evalsリポジトリ。³⁴

強み

最大の利点はOpenAIエージェントスタックとの近さである。本番エージェントがOpenAI APIとAgentsツールを中心に構築されている場合、OpenAI Agent Evalsはそのスタックのネイティブな成果物を少ない変換で評価できる。

トレース採点はエージェントに特に重要である。最終テキストと同じくらいプロセスが重要だからだ。ワークフローは、ツール選択、ハンドオフ、欠けたガードレール、中間推論ステップのために誤ることがある。

制限

トレードオフはベンダーニュートラル性である。OpenAI Agent Evalsは、残りのスタックがOpenAIネイティブである場合に最適だ。複数のモデルプロバイダー、フレームワーク、ホスティング環境を比較するチームは、Braintrust、Langfuse、Phoenix、LangSmithを好むかもしれない。

価格 / 公開指標

OpenAIはAPI価格を公開している。³⁵ より広範な評価ワークフローの価格は、モデル利用量とAPI呼び出しに依存する。Agent Evals単体の公開導入指標は、必要な情報源からは確認できなかった。

8. Helicone — 軽量ゲートウェイとコスト可観測性レイヤーのベスト

最適な対象: 初日から重い評価プラットフォームを採用することなく、リクエストレベルの可観測性、コスト追跡、レイテンシ分析、キャッシュ、ルーティング、フィードバック、スコアを素早く必要とするチーム。

Heliconeは実用的なゲートウェイ型可観測性レイヤーである。価格は公開され、³⁶ スコア機能は文書化され、³⁷ GitHubリポジトリも公開されている。³⁸ また、Vercel AI SDKの可観測性プロバイダードキュメントにも登場する。³⁹

主な機能

LLMリクエストのロギングと分析。
コスト、レイテンシ、使用量の追跡。
スコアとフィードバックワークフロー。³⁷
キャッシュやルーティングなどのゲートウェイ機能。
オープンソースリポジトリ。³⁸
AI SDKプロバイダー統合。³⁹

強み

Heliconeの強みは速度である。多くのチームは完全な評価規律から始めるのではなく、「いくら使っているのか、どのリクエストが遅いのか、どこでユーザーが不満を持っているのか」を問うところから始める。Heliconeはそれらの問いに素早く答える。

より深い評価ツールの補完としても有用である。チームはゲートウェイ分析にHeliconeを使い、オフライン評価やCIリグレッションスイートには別のフレームワークを使える。

制限

Heliconeはこのランキングで最も深いエージェント軌跡評価プラットフォームではない。自社ブログではより広範なLLM可観測性やプロンプト評価フレームワークを扱っているが、⁴⁰⁴¹ 複雑なマルチステップエージェント採点、データセット管理、CIゲートを必要とするチームは、ゲートウェイファーストの構成を卒業する可能性がある。

価格 / 公開指標

Heliconeは価格を公開している。³⁶ 公開売上、顧客数、リクエスト量指標は、必要な情報源からは確認できなかった。

9. Ragas — 専門的なRAG評価フレームワークのベスト

最適な対象: フルの本番可観測性ダッシュボードよりも、RAG品質、検索メトリクス、合成テストセット生成、評価実験に集中するチーム。

Ragasは最もよく知られたオープンソースRAG評価フレームワークの一つである。ドキュメントは評価ワークフローを扱い、⁴² ウェブサイトはプロジェクトを説明し、⁴³ 統合も文書化され、⁴⁴ 評価アプリケーション向けのコスト関連ガイダンスも存在する。⁴⁵

主な機能

RAG評価メトリクス。
テストセット生成と実験。
より広範なLLMツールとの統合。⁴⁴
コストを意識した評価ガイダンス。⁴⁵
検索品質と回答の根拠づけ分析に有用。

強み

Ragasは、本番上の中核リスクが検索品質である場合に優れている。不完全なコンテキスト、弱い根拠づけ、回答忠実性の低さ、検索再現率の悪さといった問題である。汎用テキスト採点より専門的なメトリクスとワークフローをチームに提供する。

可観測性プラットフォームとも相性がよい。たとえばチームはLangfuseやPhoenixでトレースを取得し、RAG固有評価にはRagas風メトリクスを使える。

制限

Ragasは単体の本番可観測性ダッシュボードではない。トレース取り込み、アラート、セッション分析、コスト監視、エンタープライズレビューワークフローを置き換えるものではない。本番エージェント唯一のハーネスではなく、評価ツールキット内に属する。

価格 / 公開指標

Ragasのドキュメントとウェブサイトは公開されている。⁴²⁴³ 管理型Ragasプラットフォームの公開価格や売上指標は、必要な情報源からは確認できなかった。

比較マトリクス

順位	ツール	最適な用途	OSS / セルフホスト姿勢	エージェントトレースの深さ	評価成熟度	本番可観測性	OTel / エコシステム適合	価格透明性
1	LangSmith	本番エージェントハーネスの総合ベスト	プロプライエタリSaaS	非常に高い	非常に高い	非常に高い	強い、特にLangChain/LangGraph	公開価格
2	Braintrust	評価ファーストのチーム	プロプライエタリSaaS	強い	非常に高い	強い	強い、OpenTelemetryドキュメントあり	公開価格
3	Langfuse	オープンソース / セルフホスト型オールラウンドハーネス	強いOSS + セルフホスト	強い	強い	強い	強いネイティブOpenTelemetry	公開価格
4	Arize Phoenix / AX	OTel/OpenInferenceとエンタープライズ可観測性	Phoenix OSS + AX enterprise	強い	強い	非常に高い	優れたOTel/OpenInference志向	エンタープライズ価格は完全公開ではない
5	Galileo	管理型エンタープライズエージェント評価	プロプライエタリSaaS	強い	強い	強い	統合は公開、OSS中心ではない	公開価格ページ
6	DeepEval / Confident AI	コードファースト評価とCIテスト	DeepEval OSS + 管理型プラットフォーム	中程度から強い	強い	プラットフォーム利用なしでは中程度	強い開発者エコシステム適合	公開価格
7	OpenAI Agent Evals	OpenAIネイティブエージェント	OpenAI evals repo + API stack	OpenAIスタック内では強い	OpenAIスタック内では強い	統合経由で中程度	OpenAIエコシステムに強い	API価格は公開
8	Helicone	ゲートウェイ可観測性とコスト分析	OSS repo + SaaS	中程度	中程度	リクエスト/コスト分析に強い	良好なSDK/プロバイダー統合	公開価格
9	Ragas	RAG評価メトリクス	オープンソースフレームワーク	ダッシュボードとしては限定的	RAGに強い	限定的	良好な統合	完全には該当しない

MCPlatoの位置づけ: 評価ハーネスを取り巻くワークスペースハーネス

MCPlatoはこのカテゴリで直接の評価または可観測性ベンダーとしてランク付けすべきではない。専用の評価ダッシュボードでも、OpenTelemetryパイプラインでも、本番トレースウェアハウスでもなく、LangSmith、Braintrust、Langfuse、Phoenix/AX、Galileo、DeepEval、OpenAI Agent Evals、Helicone、Ragasの代替でもない。

役割は異なる。MCPlatoはローカルファーストのAI Partnerおよびワークスペースハーネスである。⁴⁶ 正式な本番評価の前後および周辺で起きる人間とAIの作業を、チームが調整するのを助ける。

エージェント障害とユーザーの痛点を調査する。
ファイル、ブラウザセッション、ツールを横断してエージェントワークフローをプロトタイプする。
ローカル文書、ノート、ログ、調査から評価データセットを準備する。
永続的なローカルコンテキストでマルチセッションAI作業を実行する。
デバッグとレビュー中に人間をループに残す。
プロジェクトを中心にワークスペースメモリ、成果物、接続資料を整理する。

そのためMCPlatoは評価スタックを補完する。実用的なワークフローは次のようになる。

MCPlatoを使って障害報告を調査し、例を収集し、ローカルファイルを調べ、リサーチセッションを調整し、評価ケースを下書きする。
LangSmith、Braintrust、Langfuse、Phoenix/AX、Galileo、DeepEval、OpenAI Agent Evals、Helicone、Ragasを使って、テレメトリ、トレース取り込み、ダッシュボード、評価採点、アラート、CI/CDリグレッションを実行する。
障害と洞察をMCPlatoへ戻し、人間のレビュー、ドキュメント化、プロトタイプ反復、ワークスペースレベルのコラボレーションに使う。

MCPlatoのチェンジログは進化中のデスクトップAIワークスペース製品であることを示しているが、⁴⁷ チームはそれを評価ハーネスそのものではなく、評価ハーネスを取り巻くコラボレーションとオーケストレーション環境として扱うべきである。

チームタイプ別の選択ガイド

LangChainまたはLangGraph中心のチームの場合

LangSmithから始めるとよい。フレームワークネイティブなトレースから本番監視と評価へ進む最も直接的な道を提供する。

組織として評価規律を構築している場合

データセット、実験、人間のレビュー、リグレッションワークフローがAI品質プロセスの中心なら、Braintrustを選ぶ。

オープンソースまたはセルフホスティングが必要な場合

Langfuse、Arize Phoenix、DeepEval、Helicone、Ragasを候補に入れる。Langfuseは最も強力なオールラウンドのセルフホスト可観測性選択肢であり、Phoenixはオープン可観測性とOpenInferenceに強く、DeepEvalとRagasはよりフレームワークに近い。

OpenTelemetry整合性が優先事項の場合

Arize Phoenix / AX、Langfuse、Braintrustをよく検討する。OpenTelemetryが重要なのは、エージェントトレースが最終的にサービストレース、インフラメトリクス、インシデントワークフローと共存すべきだからである。

エンタープライズ管理型評価が必要な場合

Galileo、Arize AX、Braintrust、LangSmithを評価する。正しい選択は、ガバナンス、サポート、デプロイ、統合、どれだけの評価ロジックを自社で所有したいかに依存する。

OpenAIネイティブの場合

特にOpenAI Agentsで構築し、ネイティブなトレース採点を求めるなら、早期にOpenAI Agent Evalsを使う。マルチモデルやマルチフレームワークへの拡張を見込むなら、ベンダーニュートラルなレイヤーも検討する。

迅速なリクエスト/コスト可視性が必要な場合

Heliconeから始める。支出、レイテンシ、リクエスト挙動を理解する最速の方法の一つである。

RAG品質が主なリスクの場合

より広い可観測性ツールと並行してRagasを使う。これはメトリクスフレームワークであり、完全な本番ダッシュボードではない。

ボトルネックがワークスペースオーケストレーションの場合

チームが調査、プロトタイピング、デバッグ、データセット準備、人間のコラボレーションのためにローカルファーストAIワークスペースを必要とするなら、MCPlatoを使う。そのうえで、得られた評価ケースと運用上の学びを専用の評価/可観測性プラットフォームへ接続する。

全体像: 評価 + トレース + OTel + 人間のレビュー + ワークスペースオーケストレーション

市場の方向性は明確である。本番エージェント品質は閉ループになりつつある。

すべてを計装する。 モデル呼び出し、ツール呼び出し、検索、ハンドオフ、ユーザーフィードバック、コスト、レイテンシ、エラーを取得する。
トレースを評価へ変換する。 重大な失敗はすべて、データセット行、リグレッションテスト、または人間のレビュー項目になるべきである。
デプロイ前に評価を実行する。 CI/CDゲートは、プロンプト、モデル、ツール、ワークフローのリグレッションを検出すべきである。
デプロイ後に監視する。 オンラインスコア、アラート、ダッシュボードがドリフトとサイレント失敗を表面化すべきである。
人間をループに残す。 曖昧なタスク、ポリシー判断、エッジケース、信頼性の調整には、レビュー担当者が依然として重要である。
ワークスペースオーケストレーションを使う。 MCPlatoのようなツールは、調査、コンテキスト、ファイル、メモリ、コラボレーション、デバッグ成果物といった周辺作業を整理するのに役立つ。

単一のツールがループ全体を完璧に所有するわけではない。LangSmith、Braintrust、Langfuse、Phoenix/AX、Galileo、DeepEval、OpenAI Agent Evals、Helicone、Ragasはそれぞれ異なる部分をカバーする。MCPlatoは異なるが重要性を増すレイヤーをカバーする。本番品質システムがルールを強制する前に、人間とAIエージェントが準備し、調査し、反復するローカルワークスペースである。

2026年の多くの本番チームにとって、勝つスタックは一つのダッシュボードではない。エージェントトレース、反復可能な評価、OpenTelemetry互換の可観測性、人間のレビュー、そして作業を一貫させるワークスペースハーネスの組み合わせになるだろう。

References

Footnotes

LangSmith Observability — https://www.langchain.com/langsmith/observability ↩
LangSmith Evaluation Docs — https://docs.langchain.com/langsmith/evaluation ↩
LangChain Pricing — https://www.langchain.com/pricing ↩ ↩²
Braintrust Homepage — https://www.braintrust.dev/ ↩
Braintrust OpenTelemetry Integration — https://www.braintrust.dev/docs/integrations/sdk-integrations/opentelemetry ↩ ↩²
Braintrust Customers — https://www.braintrust.dev/customers ↩ ↩²
Braintrust Series A Announcement — https://www.braintrust.dev/blog/announcing-series-a ↩
Braintrust Pricing — https://www.braintrust.dev/pricing ↩
Langfuse GitHub — https://github.com/langfuse/langfuse ↩
Langfuse Pricing — https://langfuse.com/pricing ↩ ↩²
Langfuse Self-hosting — https://langfuse.com/self-hosting ↩ ↩² ↩³
Langfuse OpenTelemetry Integration — https://langfuse.com/integrations/native/opentelemetry ↩ ↩²
Langfuse Automated Evaluations — https://langfuse.com/blog/2025-09-05-automated-evaluations ↩
Arize Phoenix — https://arize.com/phoenix/ ↩ ↩²
Arize Agent Observability — https://arize.com/ai-agents/agent-observability/ ↩ ↩²
Arize Phoenix GitHub — https://github.com/arize-ai/phoenix ↩ ↩²
Arize AX OpenTelemetry Integration — https://arize.com/docs/ax/integrations/opentelemetry/opentelemetry-arize-otel ↩
Arize OTel / OpenInference Blog — https://arize.com/blog/zero-to-a-million-instrumenting-llms-with-otel/ ↩
Arize Series C Announcement — https://arize.com/blog/arize-ai-raises-70m-series-c-to-build-the-gold-standard-for-ai-evaluation-observability/ ↩ ↩²
Galileo Homepage — https://galileo.ai/ ↩
Galileo Pricing — https://galileo.ai/pricing ↩ ↩²
Galileo Case Studies — https://galileo.ai/case-studies ↩ ↩²
Google Cloud Customer Story: Galileo — https://cloud.google.com/customers/galileo ↩ ↩² ↩³
Galileo Agentic Evaluations Announcement — https://www.prnewswire.com/news-releases/galileo-launches-agentic-evaluations-to-empower-developers-to-build-reliable-ai-agents-302358451.html ↩ ↩²
DeepEval Homepage — https://deepeval.com/ ↩
DeepEval GitHub — https://github.com/confident-ai/deepeval ↩ ↩²
Confident AI DeepEval Framework — https://www.confident-ai.com/frameworks/deepeval ↩
Confident AI Docs — https://www.confident-ai.com/docs ↩ ↩²
Confident AI Pricing — https://www.confident-ai.com/pricing ↩ ↩²
OpenAI Agent Evals Guide — https://developers.openai.com/api/docs/guides/agent-evals ↩ ↩²
OpenAI Agents Guide — https://developers.openai.com/api/docs/guides/agents ↩ ↩²
OpenAI Agents Observability Integrations — https://developers.openai.com/api/docs/guides/agents/integrations-observability ↩ ↩²
OpenAI Trace Grading — https://developers.openai.com/api/docs/guides/trace-grading ↩ ↩²
OpenAI Evals GitHub — https://github.com/openai/evals ↩
OpenAI Pricing — https://developers.openai.com/api/docs/pricing ↩
Helicone Pricing — https://www.helicone.ai/pricing ↩ ↩²
Helicone Scores Docs — https://docs.helicone.ai/features/advanced-usage/scores ↩ ↩²
Helicone GitHub — https://github.com/Helicone/helicone ↩ ↩²
AI SDK Helicone Observability Provider — https://ai-sdk.dev/providers/observability/helicone ↩ ↩²
Helicone LLM Observability Platforms Guide — https://www.helicone.ai/blog/the-complete-guide-to-LLM-observability-platforms ↩
Helicone Prompt Evaluation Frameworks Guide — https://www.helicone.ai/blog/prompt-evaluation-frameworks ↩
Ragas Docs — https://docs.ragas.io/en/stable/ ↩ ↩²
Ragas Website — https://www.ragas.io/ ↩ ↩²
Ragas Integrations — https://docs.ragas.io/en/stable/howtos/integrations/ ↩ ↩²
Ragas Cost Docs — https://docs.ragas.io/en/v0.2.5/howtos/applications/_cost/ ↩ ↩²
MCPlato Homepage — https://mcplato.com/en/ ↩
MCPlato Changelog — https://mcplato.com/en/changelog/ ↩