Retour au blog
ai-agents
agent-evaluation
observability
llmops
ai-harness
comparison

Les meilleurs harnais d’évaluation et d’observabilité des agents IA pour les équipes de production en 2026

Un classement étayé par les données de LangSmith, Braintrust, Langfuse, Arize Phoenix, Galileo, DeepEval, OpenAI Agent Evals, Ragas, Helicone — plus la place de MCPlato comme harnais d’espace de travail IA local-first.

Publié le 2026-05-14

Les agents IA en production ne tombent pas en panne comme les démos. Une démo échoue quand le modèle donne une réponse faible ; un agent en production échoue quand il appelle le mauvais outil, saute une étape, boucle pendant 14 minutes, brûle du budget, gère mal un transfert, récupère un contexte obsolète ou réussit un test de workflow puis régresse le lendemain. En 2026, les équipes ont donc besoin de plus que des journaux de prompts : des harnais d’évaluation et d’observabilité qui capturent les traces, notent les comportements, comparent les versions, font émerger les régressions et reconnectent la revue humaine au développement.

Cet article classe les principaux harnais d’évaluation et d’observabilité des agents IA : LangSmith, Braintrust, Langfuse, Arize Phoenix / Arize AX, Galileo, DeepEval / Confident AI, OpenAI Agent Evals, Helicone et Ragas. MCPlato est traité séparément : non comme fournisseur direct d’observabilité, mais comme harnais d’espace de travail IA local-first complémentaire autour du harnais d’évaluation.

Qu’est-ce qui compte comme harnais d’évaluation / observabilité d’agents IA ?

Un tel harnais aide les équipes à répondre à cinq questions de production :

  • Que s’est-il passé ? Tracer les étapes d’agent, appels d’outils, appels de modèles, retrieval, transferts, sessions, coûts, latence et erreurs.
  • Était-ce bon ? Noter sorties et trajectoires avec des évaluateurs en code, LLM-as-judge, revue humaine, feedback ou métriques métier.
  • Avons-nous régressé ? Exécuter des évaluations répétables avant déploiement et surveiller le comportement en ligne ensuite.
  • Pouvons-nous déboguer ? Inspecter les traces en échec, comparer les versions de prompts/modèles/outils et transformer les échecs de production en tests.
  • S’intègre-t-il à notre stack ? S’intégrer aux SDK, CI/CD, OpenTelemetry, à l’observabilité existante et aux exigences de gouvernance.

Les meilleurs harnais combinent traces + jeux de données d’évaluation + expériences + monitoring de production + feedback humain. Les outils plus étroits restent utiles, mais ressemblent davantage à des proxies de logs, bibliothèques de tests ou toolkits de métriques RAG qu’à une boucle complète de contrôle en production.

Méthodologie

Ce classement privilégie les équipes qui construisent des systèmes LLM et agents multi-étapes. La notation qualitative repose sur les pages produit publiques, la documentation, les prix, les intégrations, les dépôts open source et les informations publiques disponibles au 14 mai 2026.

AxeCe que nous avons recherché
Profondeur des traces d’agentsTraces imbriquées, appels d’outils, transferts, vues de session, débogage de trajectoire
Maturité du workflow d’évaluationJeux de données, expériences, évaluations en ligne/hors ligne, LLM-as-judge, revue humaine, suivi des scores
Observabilité de productionCoût, latence, tokens, erreurs, dashboards, alertes, feedback, monitoring
Support des régressions CI/CDExécutions répétables, gates de test, workflows de comparaison
Compatibilité OpenTelemetry / écosystèmeOTel, OpenInference, SDK, intégrations de frameworks, ingestion/export neutres
Flexibilité de déploiementSaaS, auto-hébergement, open source, contrôles entreprise
Transparence tarifairePrix publics et modèle d’usage clair
Préparation entrepriseRBAC, SSO, journaux d’audit, confidentialité, support, conformité
Expérience développeurRapidité d’installation, qualité des docs, ergonomie SDK, itération locale

Nous évitons les métriques inventées. Si prix, traction, revenus, nombre de clients ou benchmarks ne sont pas publics, nous le disons.

1. LangSmith — Meilleur choix global pour les équipes d’agents en production

Idéal pour : Les équipes utilisant LangChain, LangGraph ou des stacks Python/JavaScript proches, qui veulent un système mature tout-en-un pour tracing, évaluation, jeux de données, monitoring et confiance au déploiement.

LangSmith arrive en tête car c’est l’un des harnais de production les plus complets pour les constructeurs d’agents. Son produit d’observabilité met l’accent sur tracing, monitoring, débogage et visibilité opérationnelle pour applications LLM et agents.1 Sa documentation d’évaluation couvre jeux de données, expériences, évaluateurs automatisés et workflows de comparaison dans le temps.2

Capacités clés

  • Tracing agents et LLM pour workflows multi-étapes.
  • Jeux de données d’évaluation et exécutions d’expériences.
  • Évaluateurs automatisés et workflows de revue humaine.
  • Monitoring de production pour latence, coûts, erreurs et signaux qualité.
  • Forte compatibilité avec LangChain et LangGraph.
  • Prix publics avec offres à l’usage et orientées équipes.3

Forces

L’avantage de LangSmith est son exhaustivité. Beaucoup d’équipes commencent avec LangChain ou LangGraph puis ont besoin de la couche opérationnelle. LangSmith offre le chemin le plus court du débogage local vers l’inspection de traces, les jeux d’évaluation et le monitoring de production.

Il est fort pour les agents car les échecs se situent souvent au niveau de la trajectoire. Une réponse finale peut sembler correcte alors que les appels intermédiaires révèlent coûts gaspillés, actions dangereuses ou planification fragile.

Limites

LangSmith est le plus convaincant dans l’écosystème LangChain/LangGraph. Les équipes voulant un plan de contrôle totalement neutre, open source ou self-host-first peuvent préférer Langfuse ou Phoenix. Les prix sont publics, mais le coût final dépend du volume et de l’offre.

Prix / métriques publiques

LangChain publie les prix de LangSmith.3 Aucun nombre de clients ni revenu public spécifique à LangSmith n’a été trouvé.

2. Braintrust — Meilleure plateforme centrée sur l’évaluation

Idéal pour : Les équipes produit et ingénierie qui font des évaluations un workflow central : jeux de données, expériences, régressions, revue humaine et boucles de feedback issues des traces de production.

Braintrust est la plateforme la plus centrée sur l’évaluation de ce classement. Sa page d’accueil positionne le produit autour de l’évaluation, de la livraison et de l’amélioration des produits IA avec expériences, jeux de données, logging, prompts, playgrounds et revue humaine.4 Son intégration OpenTelemetry documentée compte pour les équipes qui standardisent l’observabilité.5

Capacités clés

  • Jeux de données et expériences pour évaluation répétable.
  • Scoring en ligne et hors ligne.
  • Boucles de revue humaine et annotation.
  • Comparaison de prompts et modèles.
  • Logging de production et feedback des traces vers les évaluations.
  • Intégration OpenTelemetry.5
  • Pages clients et cas publics.6

Forces

Braintrust est fort lorsque les évaluations ne sont pas une réflexion après coup. Il aide à convertir exemples, traces, feedbacks et cas limites en jeux de données durables. Pour les agents en production, chaque échec doit devenir un futur test de régression.

L’annonce publique de Series A et les témoignages clients renforcent la crédibilité.76

Limites

Braintrust est moins open-source-first que Langfuse, Phoenix, DeepEval ou Ragas. Les équipes qui veulent auto-héberger toute la couche d’observabilité peuvent préférer Langfuse ou Phoenix. Pour logging gateway et analyse des coûts, Helicone peut être plus rapide.

Prix / métriques publiques

Braintrust publie ses prix.8 Nombre de clients, revenus et volume d’usage exacts ne sont pas publics.

3. Langfuse — Meilleur harnais polyvalent open source / auto-hébergé

Idéal pour : Les équipes voulant une plateforme open source et auto-hébergeable pour observabilité LLM, tracing, gestion des prompts, évaluations, jeux de données et expériences.

Langfuse est la meilleure option open source polyvalente. Son dépôt GitHub est public,9 ses prix sont publics,10 et l’auto-hébergement est documenté.11 Son intégration OpenTelemetry native devient importante à mesure que l’observabilité des agents rejoint la télémétrie standard.12

Capacités clés

  • Plateforme open source d’observabilité LLM.
  • Traces, sessions, suivi utilisateur et scores.
  • Gestion des prompts, jeux de données et expériences.
  • Évaluations automatisées et LLM-as-judge.13
  • Intégration OpenTelemetry native.12
  • Support de l’auto-hébergement.11

Forces

Langfuse combine transparence open source, auto-hébergement, workflows d’évaluation modernes et large surface d’observabilité. Il attire les équipes soucieuses de sécurité, les secteurs régulés et les organisations voulant éviter le verrouillage fournisseur. Il convient aussi aux stacks hétérogènes.

Limites

L’auto-hébergement exige exploitation, sécurité, mises à jour et montée en charge. Pour gouvernance avancée, alerting ou adoption inter-équipes, il peut demander plus d’assemblage qu’une plateforme entreprise managée.

Prix / métriques publiques

Langfuse publie prix et auto-hébergement.1011 Aucun revenu public ni nombre de clients n’a été trouvé.

4. Arize Phoenix / Arize AX — Meilleure stack orientée OpenTelemetry et OpenInference

Idéal pour : Les équipes voulant une observabilité de développement open source via Phoenix et une observabilité IA de production entreprise via Arize AX, surtout avec instrumentation OpenTelemetry et OpenInference.

Arize est un acteur sérieux de l’observabilité de production, et Phoenix est un projet open source majeur de l’écosystème LLM. Phoenix est positionné pour observabilité et évaluation IA,14 tandis que les contenus Arize sur agents couvrent traces, appels d’outils, étapes d’agents et monitoring de production.15 Le dépôt Phoenix est public.16

Capacités clés

  • Workflows Phoenix open source d’observabilité et d’évaluation.1416
  • Observabilité IA entreprise Arize AX.
  • Observabilité agents pour appels d’outils, traces et comportements multi-étapes.15
  • Intégrations OpenTelemetry.17
  • Narratif OpenInference et OTel.18
  • Crédibilité entreprise via annonce publique de financement.19

Forces

L’avantage d’Arize est la profondeur d’observabilité héritée du machine learning. Phoenix donne une entrée ouverte, AX une voie entreprise. L’orientation OTel/OpenInference correspond au besoin de faire coexister télémétrie d’agents, traces de services et workflows d’incident.

Limites

La séparation Phoenix/AX exige des décisions d’architecture : Phoenix pour développement et OSS, AX pour production entreprise.

Prix / métriques publiques

Phoenix est open source. Les prix entreprise Arize AX ne sont pas publics. Arize a annoncé une Series C de 70 M$ pour l’infrastructure d’évaluation et d’observabilité IA.19

5. Galileo — Meilleure plateforme entreprise d’évaluation agentique

Idéal pour : Les équipes entreprise qui veulent évaluations agentiques managées, visibilité workflow, guardrails, dashboards et monitoring sans assembler elles-mêmes des composants open source.

Galileo se positionne comme plateforme entreprise d’évaluation et d’observabilité IA.20 Les prix,21 cas clients,22 et une story Google Cloud23 sont publics. Son annonce d’évaluations agentiques vise la construction d’agents IA fiables.24

Capacités clés

  • Évaluations agentiques pour workflows multi-étapes.24
  • Dashboards d’observabilité IA.
  • Monitoring qualité, coût, latence et erreurs.
  • Guardrails et workflows d’évaluation.
  • Cas entreprise et orientation déploiement managé.2223

Forces

Galileo vise clairement l’évaluation et l’observabilité IA de niveau entreprise. Il convient aux équipes qui veulent des workflows propres aux agents sans assembler tracing OSS, métriques personnalisées et dashboards. La story Google Cloud est un signal de crédibilité.23

Limites

Galileo est moins centré open source que Langfuse, Phoenix, DeepEval, Helicone ou Ragas. Les équipes voulant contrôle local-first, transparence d’auto-hébergement ou tests au niveau framework peuvent préférer d’autres options.

Prix / métriques publiques

Galileo publie des prix.21 Aucun détail public sur clients, revenus ou usage plateforme n’a été trouvé.

6. DeepEval / Confident AI — Meilleur framework de test d’agents code-first

Idéal pour : Les développeurs voulant des évaluations de style pytest pour applications LLM et agents, avec plateforme managée optionnelle pour dashboards, collaboration et observabilité.

DeepEval est un framework d’évaluation code-first de Confident AI. Sa page d’accueil et GitHub mettent l’open source au centre,2526 tandis que Confident AI fournit plateforme, docs et prix.272829

Capacités clés

  • Framework open source d’évaluation LLM.
  • Évaluations type tests unitaires pour applications LLM.
  • Métriques pour justesse, hallucination, RAG et comportement agent.
  • Workflow compatible CI.
  • Plateforme Confident AI pour dashboards et collaboration.28

Forces

DeepEval correspond au modèle mental développeur : écrire des tests, les exécuter, faire échouer les builds et corriger les régressions. Il est fort pour valider avant production chaque changement de prompt, workflow ou retrieval.

Limites

DeepEval seul n’est pas une plateforme complète d’observabilité de production. Pour traces de production, alerting, analytique de longues sessions et monitoring organisationnel, il faut Confident AI ou une autre couche.

Prix / métriques publiques

DeepEval est open source sur GitHub.26 Confident AI publie ses prix.29 Aucun nombre de clients ou métrique d’usage public n’a été trouvé.

7. OpenAI Agent Evals — Meilleur choix pour les constructeurs d’agents OpenAI-native

Idéal pour : Les équipes construisant surtout avec la stack Agents d’OpenAI et voulant évaluation, tracing, trace grading et intégrations d’observabilité proches du modèle et du runtime agent.

Le guide OpenAI Agent Evals couvre les workflows d’agents avec traces, graders, jeux de données et exécutions d’évaluation.30 Les guides Agents, observability integrations et trace grading montrent un système plus large pour construire et inspecter des agents OpenAI-native.313233

Capacités clés

  • Workflows d’évaluation agents avec traces, jeux de données et graders.30
  • Docs et conseils runtime pour construire des agents.31
  • Intégrations d’observabilité pour traces d’agents.32
  • Trace grading au niveau workflow.33
  • Dépôt open source openai/evals.34

Forces

Le principal avantage est la proximité avec la stack OpenAI Agents. Si l’agent de production repose sur les APIs OpenAI et le tooling Agents, les artefacts natifs peuvent être évalués avec moins de traduction. Le trace grading est crucial car le processus compte autant que le texte final.

Limites

Le compromis est la neutralité fournisseur. OpenAI Agent Evals convient surtout aux stacks OpenAI-native ; les équipes multi-modèles ou multi-frameworks peuvent préférer Braintrust, Langfuse, Phoenix ou LangSmith.

Prix / métriques publiques

OpenAI publie les prix API.35 Les coûts dépendent de l’usage modèles et des appels API. Aucune métrique publique d’adoption Agent Evals n’a été trouvée.

8. Helicone — Meilleure couche légère de gateway et d’observabilité des coûts

Idéal pour : Les équipes ayant besoin rapidement d’observabilité requête, suivi des coûts, analyse latence, caching, routing, feedback et scores.

Helicone est une couche d’observabilité pragmatique de type gateway. Ses prix sont publics,36 sa fonctionnalité scores est documentée,37 et son dépôt GitHub est public.38 Elle apparaît aussi dans les docs Vercel AI SDK Observability Provider.39

Capacités clés

  • Logging et analytique des requêtes LLM.
  • Suivi coûts, latence et usage.
  • Workflows scores et feedback.37
  • Fonctions gateway : caching et routing.
  • Dépôt open source.38
  • Intégration AI SDK Provider.39

Forces

Helicone est rapide. Beaucoup d’équipes commencent par demander : « Combien dépensons-nous, quelles requêtes sont lentes, où les utilisateurs sont-ils insatisfaits ? » Helicone répond vite et complète bien des outils d’évaluation plus profonds.

Limites

Helicone n’est pas la plateforme la plus profonde pour évaluer les trajectoires d’agents. Pour scoring multi-étapes complexe, gestion de datasets et gates CI, une configuration gateway-first peut devenir insuffisante.4041

Prix / métriques publiques

Helicone publie ses prix.36 Aucun revenu, nombre de clients ou volume de requêtes public n’a été trouvé.

9. Ragas — Meilleur framework spécialisé d’évaluation RAG

Idéal pour : Les équipes concentrées sur qualité RAG, métriques de retrieval, génération de testsets synthétiques et expériences d’évaluation plutôt que dashboards complets de production.

Ragas est un framework open source RAG très connu. Sa documentation couvre les workflows d’évaluation,42 son site explique le projet,43 les intégrations sont documentées,44 et des conseils de coût existent.45

Capacités clés

  • Métriques d’évaluation RAG.
  • Génération de testsets et expérimentation.
  • Intégrations avec l’outillage LLM plus large.44
  • Conseils sensibles aux coûts.45
  • Utile pour qualité de retrieval et analyse d’ancrage des réponses.

Forces

Ragas est excellent lorsque le risque principal est la qualité de retrieval : contexte incomplet, mauvais grounding, faible fidélité ou mauvais recall. Il complète bien des plateformes comme Langfuse ou Phoenix.

Limites

Ragas n’est pas un dashboard autonome d’observabilité de production. Il ne remplace pas ingestion de traces, alerting, analytique de sessions, monitoring des coûts ou workflows de revue entreprise.

Prix / métriques publiques

Documentation et site Ragas sont publics.4243 Aucun prix public ni revenu pour une plateforme Ragas managée n’a été trouvé.

Matrice de comparaison

RangOutilIdéal pourPosition OSS / auto-hébergementProfondeur traces agentsMaturité évaluationObservabilité productionCompatibilité OTel / écosystèmeTransparence tarifaire
1LangSmithMeilleur harnais global agents productionSaaS propriétaireExcellenteExcellenteExcellenteForte, surtout LangChain/LangGraphPrix publics
2BraintrustÉquipes evaluation-firstSaaS propriétaireForteExcellenteForteForte, docs OpenTelemetryPrix publics
3LangfuseHarnais polyvalent open source / auto-hébergéOSS fort + auto-hébergementForteForteForteOpenTelemetry natif fortPrix publics
4Arize Phoenix / AXOTel/OpenInference et observabilité entreprisePhoenix OSS + AX entrepriseForteForteExcellenteExcellente orientation OTel/OpenInferencePrix entreprise pas entièrement publics
5GalileoÉvaluation agentique entreprise managéeSaaS propriétaireForteForteForteIntégrations publiques, moins OSSPage prix publique
6DeepEval / Confident AIEvals code-first et tests CIDeepEval OSS + plateforme managéeModérée à forteForteModérée sauf plateformeForte compatibilité développeurPrix publics
7OpenAI Agent EvalsAgents OpenAI-nativeRepo OpenAI evals + stack APIForte dans stack OpenAIForte dans stack OpenAIModérée via intégrationsForte pour écosystème OpenAIPrix API publics
8HeliconeObservabilité gateway et analyse coûtsRepo OSS + SaaSModéréeModéréeForte pour requêtes/coûtsBonnes intégrations SDK/providerPrix publics
9RagasMétriques d’évaluation RAGFramework open sourceLimitée comme dashboardForte pour RAGLimitéeBonnes intégrationsPas entièrement applicable

Où se situe MCPlato : le harnais d’espace de travail autour du harnais d’évaluation

MCPlato ne doit pas être classé ici comme fournisseur direct d’évaluation ou d’observabilité. Ce n’est pas un dashboard d’évaluation, pas un pipeline OpenTelemetry, pas un entrepôt de traces de production, et pas un remplacement de LangSmith, Braintrust, Langfuse, Phoenix/AX, Galileo, DeepEval, OpenAI Agent Evals, Helicone ou Ragas.

Son rôle est différent : MCPlato est un AI Partner local-first et un harnais d’espace de travail.46 Il aide les équipes à coordonner le travail humain et IA avant, autour et après l’évaluation formelle :

  • rechercher les échecs d’agents et douleurs utilisateurs ;
  • prototyper des workflows d’agents entre fichiers, sessions navigateur et outils ;
  • préparer des jeux de données d’évaluation depuis documents locaux, notes, logs et recherches ;
  • exécuter un travail IA multi-session avec contexte local persistant ;
  • garder les humains dans la boucle pendant débogage et revue ;
  • organiser mémoire de workspace, artefacts et matériaux connectés.

Workflow pratique : utiliser MCPlato pour enquêter et rédiger des cas d’évaluation ; utiliser LangSmith, Braintrust, Langfuse, Phoenix/AX, Galileo, DeepEval, OpenAI Agent Evals, Helicone ou Ragas pour télémétrie, ingestion de traces, dashboards, scoring, alerting et régression CI/CD ; ramener les enseignements dans MCPlato pour revue, documentation, itération et collaboration.

Le changelog de MCPlato montre un produit desktop IA en évolution,47 mais les équipes doivent le traiter comme environnement de collaboration et d’orchestration autour du harnais d’évaluation.

Guide de choix par type d’équipe

Si vous êtes une équipe très LangChain ou LangGraph

Commencez avec LangSmith pour relier directement traces natives, monitoring et évaluations.

Si votre organisation construit une discipline d’évaluation

Choisissez Braintrust si datasets, expériences, revue humaine et régressions sont au centre du processus qualité IA.

Si vous avez besoin d’open source ou d’auto-hébergement

Présélectionnez Langfuse, Arize Phoenix, DeepEval, Helicone et Ragas. Langfuse est la meilleure option auto-hébergée polyvalente ; Phoenix est fort pour observabilité ouverte et OpenInference ; DeepEval et Ragas sont plus proches de frameworks.

Si OpenTelemetry est prioritaire

Examinez Arize Phoenix / AX, Langfuse et Braintrust. Les traces d’agents devraient coexister avec traces de services, métriques infrastructure et workflows d’incidents.

Si vous avez besoin d’une évaluation entreprise managée

Évaluez Galileo, Arize AX, Braintrust et LangSmith selon gouvernance, support, déploiement, intégrations et logique d’évaluation à posséder.

Si vous êtes OpenAI-native

Utilisez tôt OpenAI Agent Evals, surtout avec OpenAI Agents et trace grading natif. Ajoutez une couche neutre si l’expansion multi-modèles ou multi-frameworks est probable.

Si vous avez besoin d’une visibilité rapide requêtes/coûts

Commencez avec Helicone.

Si la qualité RAG est le risque principal

Utilisez Ragas avec un outil d’observabilité plus large.

Si le goulot d’étranglement est l’orchestration du workspace

Utilisez MCPlato pour recherche, prototypage, débogage, préparation de datasets et collaboration humaine, puis connectez les résultats à une plateforme d’évaluation/observabilité dédiée.

Vue d’ensemble : Evals + traces + OTel + revue humaine + orchestration de workspace

La qualité des agents en production devient une boucle fermée :

  1. Tout instrumenter. Capturer appels modèles, appels outils, retrieval, transferts, feedback utilisateur, coûts, latence et erreurs.
  2. Convertir les traces en évaluations. Chaque échec sérieux devient ligne de dataset, test de régression ou item de revue.
  3. Exécuter les évaluations avant déploiement. Les gates CI/CD détectent régressions de prompts, modèles, outils et workflows.
  4. Surveiller après déploiement. Scores en ligne, alertes et dashboards révèlent dérive et échecs silencieux.
  5. Garder les humains dans la boucle. Les reviewers restent essentiels pour ambiguïtés, politiques, cas limites et calibration de confiance.
  6. Utiliser l’orchestration de workspace. Des outils comme MCPlato organisent recherche, contexte, fichiers, mémoire, collaboration et artefacts de débogage.

Aucun outil ne possède parfaitement toute la boucle. LangSmith, Braintrust, Langfuse, Phoenix/AX, Galileo, DeepEval, OpenAI Agent Evals, Helicone et Ragas couvrent des portions différentes. MCPlato couvre la couche locale où humains et agents IA préparent, inspectent et itèrent avant que les systèmes qualité de production n’appliquent les règles.

Pour la plupart des équipes en 2026, la stack gagnante ne sera pas un seul dashboard, mais une combinaison de traces d’agents, évaluations répétables, observabilité compatible OpenTelemetry, revue humaine et harnais de workspace qui garde le travail cohérent.

Références

Footnotes

  1. LangSmith Observability — https://www.langchain.com/langsmith/observability

  2. LangSmith Evaluation Docs — https://docs.langchain.com/langsmith/evaluation

  3. LangChain Pricing — https://www.langchain.com/pricing 2

  4. Braintrust Homepage — https://www.braintrust.dev/

  5. Braintrust OpenTelemetry Integration — https://www.braintrust.dev/docs/integrations/sdk-integrations/opentelemetry 2

  6. Braintrust Customers — https://www.braintrust.dev/customers 2

  7. Braintrust Series A Announcement — https://www.braintrust.dev/blog/announcing-series-a

  8. Braintrust Pricing — https://www.braintrust.dev/pricing

  9. Langfuse GitHub — https://github.com/langfuse/langfuse

  10. Langfuse Pricing — https://langfuse.com/pricing 2

  11. Langfuse Self-hosting — https://langfuse.com/self-hosting 2 3

  12. Langfuse OpenTelemetry Integration — https://langfuse.com/integrations/native/opentelemetry 2

  13. Langfuse Automated Evaluations — https://langfuse.com/blog/2025-09-05-automated-evaluations

  14. Arize Phoenix — https://arize.com/phoenix/ 2

  15. Arize Agent Observability — https://arize.com/ai-agents/agent-observability/ 2

  16. Arize Phoenix GitHub — https://github.com/arize-ai/phoenix 2

  17. Arize AX OpenTelemetry Integration — https://arize.com/docs/ax/integrations/opentelemetry/opentelemetry-arize-otel

  18. Arize OTel / OpenInference Blog — https://arize.com/blog/zero-to-a-million-instrumenting-llms-with-otel/

  19. Arize Series C Announcement — https://arize.com/blog/arize-ai-raises-70m-series-c-to-build-the-gold-standard-for-ai-evaluation-observability/ 2

  20. Galileo Homepage — https://galileo.ai/

  21. Galileo Pricing — https://galileo.ai/pricing 2

  22. Galileo Case Studies — https://galileo.ai/case-studies 2

  23. Google Cloud Customer Story: Galileo — https://cloud.google.com/customers/galileo 2 3

  24. Galileo Agentic Evaluations Announcement — https://www.prnewswire.com/news-releases/galileo-launches-agentic-evaluations-to-empower-developers-to-build-reliable-ai-agents-302358451.html 2

  25. DeepEval Homepage — https://deepeval.com/

  26. DeepEval GitHub — https://github.com/confident-ai/deepeval 2

  27. Confident AI DeepEval Framework — https://www.confident-ai.com/frameworks/deepeval

  28. Confident AI Docs — https://www.confident-ai.com/docs 2

  29. Confident AI Pricing — https://www.confident-ai.com/pricing 2

  30. OpenAI Agent Evals Guide — https://developers.openai.com/api/docs/guides/agent-evals 2

  31. OpenAI Agents Guide — https://developers.openai.com/api/docs/guides/agents 2

  32. OpenAI Agents Observability Integrations — https://developers.openai.com/api/docs/guides/agents/integrations-observability 2

  33. OpenAI Trace Grading — https://developers.openai.com/api/docs/guides/trace-grading 2

  34. OpenAI Evals GitHub — https://github.com/openai/evals

  35. OpenAI Pricing — https://developers.openai.com/api/docs/pricing

  36. Helicone Pricing — https://www.helicone.ai/pricing 2

  37. Helicone Scores Docs — https://docs.helicone.ai/features/advanced-usage/scores 2

  38. Helicone GitHub — https://github.com/Helicone/helicone 2

  39. AI SDK Helicone Observability Provider — https://ai-sdk.dev/providers/observability/helicone 2

  40. Helicone LLM Observability Platforms Guide — https://www.helicone.ai/blog/the-complete-guide-to-LLM-observability-platforms

  41. Helicone Prompt Evaluation Frameworks Guide — https://www.helicone.ai/blog/prompt-evaluation-frameworks

  42. Ragas Docs — https://docs.ragas.io/en/stable/ 2

  43. Ragas Website — https://www.ragas.io/ 2

  44. Ragas Integrations — https://docs.ragas.io/en/stable/howtos/integrations/ 2

  45. Ragas Cost Docs — https://docs.ragas.io/en/v0.2.5/howtos/applications/_cost/ 2

  46. MCPlato Homepage — https://mcplato.com/en/

  47. MCPlato Changelog — https://mcplato.com/en/changelog/