Les meilleurs harnais d’évaluation et d’observabilité des agents IA pour les équipes de production en 2026
Un classement étayé par les données de LangSmith, Braintrust, Langfuse, Arize Phoenix, Galileo, DeepEval, OpenAI Agent Evals, Ragas, Helicone — plus la place de MCPlato comme harnais d’espace de travail IA local-first.
Publié le 2026-05-14
Les agents IA en production ne tombent pas en panne comme les démos. Une démo échoue quand le modèle donne une réponse faible ; un agent en production échoue quand il appelle le mauvais outil, saute une étape, boucle pendant 14 minutes, brûle du budget, gère mal un transfert, récupère un contexte obsolète ou réussit un test de workflow puis régresse le lendemain. En 2026, les équipes ont donc besoin de plus que des journaux de prompts : des harnais d’évaluation et d’observabilité qui capturent les traces, notent les comportements, comparent les versions, font émerger les régressions et reconnectent la revue humaine au développement.
Cet article classe les principaux harnais d’évaluation et d’observabilité des agents IA : LangSmith, Braintrust, Langfuse, Arize Phoenix / Arize AX, Galileo, DeepEval / Confident AI, OpenAI Agent Evals, Helicone et Ragas. MCPlato est traité séparément : non comme fournisseur direct d’observabilité, mais comme harnais d’espace de travail IA local-first complémentaire autour du harnais d’évaluation.
Qu’est-ce qui compte comme harnais d’évaluation / observabilité d’agents IA ?
Un tel harnais aide les équipes à répondre à cinq questions de production :
- Que s’est-il passé ? Tracer les étapes d’agent, appels d’outils, appels de modèles, retrieval, transferts, sessions, coûts, latence et erreurs.
- Était-ce bon ? Noter sorties et trajectoires avec des évaluateurs en code, LLM-as-judge, revue humaine, feedback ou métriques métier.
- Avons-nous régressé ? Exécuter des évaluations répétables avant déploiement et surveiller le comportement en ligne ensuite.
- Pouvons-nous déboguer ? Inspecter les traces en échec, comparer les versions de prompts/modèles/outils et transformer les échecs de production en tests.
- S’intègre-t-il à notre stack ? S’intégrer aux SDK, CI/CD, OpenTelemetry, à l’observabilité existante et aux exigences de gouvernance.
Les meilleurs harnais combinent traces + jeux de données d’évaluation + expériences + monitoring de production + feedback humain. Les outils plus étroits restent utiles, mais ressemblent davantage à des proxies de logs, bibliothèques de tests ou toolkits de métriques RAG qu’à une boucle complète de contrôle en production.
Méthodologie
Ce classement privilégie les équipes qui construisent des systèmes LLM et agents multi-étapes. La notation qualitative repose sur les pages produit publiques, la documentation, les prix, les intégrations, les dépôts open source et les informations publiques disponibles au 14 mai 2026.
| Axe | Ce que nous avons recherché |
|---|---|
| Profondeur des traces d’agents | Traces imbriquées, appels d’outils, transferts, vues de session, débogage de trajectoire |
| Maturité du workflow d’évaluation | Jeux de données, expériences, évaluations en ligne/hors ligne, LLM-as-judge, revue humaine, suivi des scores |
| Observabilité de production | Coût, latence, tokens, erreurs, dashboards, alertes, feedback, monitoring |
| Support des régressions CI/CD | Exécutions répétables, gates de test, workflows de comparaison |
| Compatibilité OpenTelemetry / écosystème | OTel, OpenInference, SDK, intégrations de frameworks, ingestion/export neutres |
| Flexibilité de déploiement | SaaS, auto-hébergement, open source, contrôles entreprise |
| Transparence tarifaire | Prix publics et modèle d’usage clair |
| Préparation entreprise | RBAC, SSO, journaux d’audit, confidentialité, support, conformité |
| Expérience développeur | Rapidité d’installation, qualité des docs, ergonomie SDK, itération locale |
Nous évitons les métriques inventées. Si prix, traction, revenus, nombre de clients ou benchmarks ne sont pas publics, nous le disons.
1. LangSmith — Meilleur choix global pour les équipes d’agents en production
Idéal pour : Les équipes utilisant LangChain, LangGraph ou des stacks Python/JavaScript proches, qui veulent un système mature tout-en-un pour tracing, évaluation, jeux de données, monitoring et confiance au déploiement.
LangSmith arrive en tête car c’est l’un des harnais de production les plus complets pour les constructeurs d’agents. Son produit d’observabilité met l’accent sur tracing, monitoring, débogage et visibilité opérationnelle pour applications LLM et agents.1 Sa documentation d’évaluation couvre jeux de données, expériences, évaluateurs automatisés et workflows de comparaison dans le temps.2
Capacités clés
- Tracing agents et LLM pour workflows multi-étapes.
- Jeux de données d’évaluation et exécutions d’expériences.
- Évaluateurs automatisés et workflows de revue humaine.
- Monitoring de production pour latence, coûts, erreurs et signaux qualité.
- Forte compatibilité avec LangChain et LangGraph.
- Prix publics avec offres à l’usage et orientées équipes.3
Forces
L’avantage de LangSmith est son exhaustivité. Beaucoup d’équipes commencent avec LangChain ou LangGraph puis ont besoin de la couche opérationnelle. LangSmith offre le chemin le plus court du débogage local vers l’inspection de traces, les jeux d’évaluation et le monitoring de production.
Il est fort pour les agents car les échecs se situent souvent au niveau de la trajectoire. Une réponse finale peut sembler correcte alors que les appels intermédiaires révèlent coûts gaspillés, actions dangereuses ou planification fragile.
Limites
LangSmith est le plus convaincant dans l’écosystème LangChain/LangGraph. Les équipes voulant un plan de contrôle totalement neutre, open source ou self-host-first peuvent préférer Langfuse ou Phoenix. Les prix sont publics, mais le coût final dépend du volume et de l’offre.
Prix / métriques publiques
LangChain publie les prix de LangSmith.3 Aucun nombre de clients ni revenu public spécifique à LangSmith n’a été trouvé.
2. Braintrust — Meilleure plateforme centrée sur l’évaluation
Idéal pour : Les équipes produit et ingénierie qui font des évaluations un workflow central : jeux de données, expériences, régressions, revue humaine et boucles de feedback issues des traces de production.
Braintrust est la plateforme la plus centrée sur l’évaluation de ce classement. Sa page d’accueil positionne le produit autour de l’évaluation, de la livraison et de l’amélioration des produits IA avec expériences, jeux de données, logging, prompts, playgrounds et revue humaine.4 Son intégration OpenTelemetry documentée compte pour les équipes qui standardisent l’observabilité.5
Capacités clés
- Jeux de données et expériences pour évaluation répétable.
- Scoring en ligne et hors ligne.
- Boucles de revue humaine et annotation.
- Comparaison de prompts et modèles.
- Logging de production et feedback des traces vers les évaluations.
- Intégration OpenTelemetry.5
- Pages clients et cas publics.6
Forces
Braintrust est fort lorsque les évaluations ne sont pas une réflexion après coup. Il aide à convertir exemples, traces, feedbacks et cas limites en jeux de données durables. Pour les agents en production, chaque échec doit devenir un futur test de régression.
L’annonce publique de Series A et les témoignages clients renforcent la crédibilité.76
Limites
Braintrust est moins open-source-first que Langfuse, Phoenix, DeepEval ou Ragas. Les équipes qui veulent auto-héberger toute la couche d’observabilité peuvent préférer Langfuse ou Phoenix. Pour logging gateway et analyse des coûts, Helicone peut être plus rapide.
Prix / métriques publiques
Braintrust publie ses prix.8 Nombre de clients, revenus et volume d’usage exacts ne sont pas publics.
3. Langfuse — Meilleur harnais polyvalent open source / auto-hébergé
Idéal pour : Les équipes voulant une plateforme open source et auto-hébergeable pour observabilité LLM, tracing, gestion des prompts, évaluations, jeux de données et expériences.
Langfuse est la meilleure option open source polyvalente. Son dépôt GitHub est public,9 ses prix sont publics,10 et l’auto-hébergement est documenté.11 Son intégration OpenTelemetry native devient importante à mesure que l’observabilité des agents rejoint la télémétrie standard.12
Capacités clés
- Plateforme open source d’observabilité LLM.
- Traces, sessions, suivi utilisateur et scores.
- Gestion des prompts, jeux de données et expériences.
- Évaluations automatisées et LLM-as-judge.13
- Intégration OpenTelemetry native.12
- Support de l’auto-hébergement.11
Forces
Langfuse combine transparence open source, auto-hébergement, workflows d’évaluation modernes et large surface d’observabilité. Il attire les équipes soucieuses de sécurité, les secteurs régulés et les organisations voulant éviter le verrouillage fournisseur. Il convient aussi aux stacks hétérogènes.
Limites
L’auto-hébergement exige exploitation, sécurité, mises à jour et montée en charge. Pour gouvernance avancée, alerting ou adoption inter-équipes, il peut demander plus d’assemblage qu’une plateforme entreprise managée.
Prix / métriques publiques
Langfuse publie prix et auto-hébergement.1011 Aucun revenu public ni nombre de clients n’a été trouvé.
4. Arize Phoenix / Arize AX — Meilleure stack orientée OpenTelemetry et OpenInference
Idéal pour : Les équipes voulant une observabilité de développement open source via Phoenix et une observabilité IA de production entreprise via Arize AX, surtout avec instrumentation OpenTelemetry et OpenInference.
Arize est un acteur sérieux de l’observabilité de production, et Phoenix est un projet open source majeur de l’écosystème LLM. Phoenix est positionné pour observabilité et évaluation IA,14 tandis que les contenus Arize sur agents couvrent traces, appels d’outils, étapes d’agents et monitoring de production.15 Le dépôt Phoenix est public.16
Capacités clés
- Workflows Phoenix open source d’observabilité et d’évaluation.1416
- Observabilité IA entreprise Arize AX.
- Observabilité agents pour appels d’outils, traces et comportements multi-étapes.15
- Intégrations OpenTelemetry.17
- Narratif OpenInference et OTel.18
- Crédibilité entreprise via annonce publique de financement.19
Forces
L’avantage d’Arize est la profondeur d’observabilité héritée du machine learning. Phoenix donne une entrée ouverte, AX une voie entreprise. L’orientation OTel/OpenInference correspond au besoin de faire coexister télémétrie d’agents, traces de services et workflows d’incident.
Limites
La séparation Phoenix/AX exige des décisions d’architecture : Phoenix pour développement et OSS, AX pour production entreprise.
Prix / métriques publiques
Phoenix est open source. Les prix entreprise Arize AX ne sont pas publics. Arize a annoncé une Series C de 70 M$ pour l’infrastructure d’évaluation et d’observabilité IA.19
5. Galileo — Meilleure plateforme entreprise d’évaluation agentique
Idéal pour : Les équipes entreprise qui veulent évaluations agentiques managées, visibilité workflow, guardrails, dashboards et monitoring sans assembler elles-mêmes des composants open source.
Galileo se positionne comme plateforme entreprise d’évaluation et d’observabilité IA.20 Les prix,21 cas clients,22 et une story Google Cloud23 sont publics. Son annonce d’évaluations agentiques vise la construction d’agents IA fiables.24
Capacités clés
- Évaluations agentiques pour workflows multi-étapes.24
- Dashboards d’observabilité IA.
- Monitoring qualité, coût, latence et erreurs.
- Guardrails et workflows d’évaluation.
- Cas entreprise et orientation déploiement managé.2223
Forces
Galileo vise clairement l’évaluation et l’observabilité IA de niveau entreprise. Il convient aux équipes qui veulent des workflows propres aux agents sans assembler tracing OSS, métriques personnalisées et dashboards. La story Google Cloud est un signal de crédibilité.23
Limites
Galileo est moins centré open source que Langfuse, Phoenix, DeepEval, Helicone ou Ragas. Les équipes voulant contrôle local-first, transparence d’auto-hébergement ou tests au niveau framework peuvent préférer d’autres options.
Prix / métriques publiques
Galileo publie des prix.21 Aucun détail public sur clients, revenus ou usage plateforme n’a été trouvé.
6. DeepEval / Confident AI — Meilleur framework de test d’agents code-first
Idéal pour : Les développeurs voulant des évaluations de style pytest pour applications LLM et agents, avec plateforme managée optionnelle pour dashboards, collaboration et observabilité.
DeepEval est un framework d’évaluation code-first de Confident AI. Sa page d’accueil et GitHub mettent l’open source au centre,2526 tandis que Confident AI fournit plateforme, docs et prix.272829
Capacités clés
- Framework open source d’évaluation LLM.
- Évaluations type tests unitaires pour applications LLM.
- Métriques pour justesse, hallucination, RAG et comportement agent.
- Workflow compatible CI.
- Plateforme Confident AI pour dashboards et collaboration.28
Forces
DeepEval correspond au modèle mental développeur : écrire des tests, les exécuter, faire échouer les builds et corriger les régressions. Il est fort pour valider avant production chaque changement de prompt, workflow ou retrieval.
Limites
DeepEval seul n’est pas une plateforme complète d’observabilité de production. Pour traces de production, alerting, analytique de longues sessions et monitoring organisationnel, il faut Confident AI ou une autre couche.
Prix / métriques publiques
DeepEval est open source sur GitHub.26 Confident AI publie ses prix.29 Aucun nombre de clients ou métrique d’usage public n’a été trouvé.
7. OpenAI Agent Evals — Meilleur choix pour les constructeurs d’agents OpenAI-native
Idéal pour : Les équipes construisant surtout avec la stack Agents d’OpenAI et voulant évaluation, tracing, trace grading et intégrations d’observabilité proches du modèle et du runtime agent.
Le guide OpenAI Agent Evals couvre les workflows d’agents avec traces, graders, jeux de données et exécutions d’évaluation.30 Les guides Agents, observability integrations et trace grading montrent un système plus large pour construire et inspecter des agents OpenAI-native.313233
Capacités clés
- Workflows d’évaluation agents avec traces, jeux de données et graders.30
- Docs et conseils runtime pour construire des agents.31
- Intégrations d’observabilité pour traces d’agents.32
- Trace grading au niveau workflow.33
- Dépôt open source
openai/evals.34
Forces
Le principal avantage est la proximité avec la stack OpenAI Agents. Si l’agent de production repose sur les APIs OpenAI et le tooling Agents, les artefacts natifs peuvent être évalués avec moins de traduction. Le trace grading est crucial car le processus compte autant que le texte final.
Limites
Le compromis est la neutralité fournisseur. OpenAI Agent Evals convient surtout aux stacks OpenAI-native ; les équipes multi-modèles ou multi-frameworks peuvent préférer Braintrust, Langfuse, Phoenix ou LangSmith.
Prix / métriques publiques
OpenAI publie les prix API.35 Les coûts dépendent de l’usage modèles et des appels API. Aucune métrique publique d’adoption Agent Evals n’a été trouvée.
8. Helicone — Meilleure couche légère de gateway et d’observabilité des coûts
Idéal pour : Les équipes ayant besoin rapidement d’observabilité requête, suivi des coûts, analyse latence, caching, routing, feedback et scores.
Helicone est une couche d’observabilité pragmatique de type gateway. Ses prix sont publics,36 sa fonctionnalité scores est documentée,37 et son dépôt GitHub est public.38 Elle apparaît aussi dans les docs Vercel AI SDK Observability Provider.39
Capacités clés
- Logging et analytique des requêtes LLM.
- Suivi coûts, latence et usage.
- Workflows scores et feedback.37
- Fonctions gateway : caching et routing.
- Dépôt open source.38
- Intégration AI SDK Provider.39
Forces
Helicone est rapide. Beaucoup d’équipes commencent par demander : « Combien dépensons-nous, quelles requêtes sont lentes, où les utilisateurs sont-ils insatisfaits ? » Helicone répond vite et complète bien des outils d’évaluation plus profonds.
Limites
Helicone n’est pas la plateforme la plus profonde pour évaluer les trajectoires d’agents. Pour scoring multi-étapes complexe, gestion de datasets et gates CI, une configuration gateway-first peut devenir insuffisante.4041
Prix / métriques publiques
Helicone publie ses prix.36 Aucun revenu, nombre de clients ou volume de requêtes public n’a été trouvé.
9. Ragas — Meilleur framework spécialisé d’évaluation RAG
Idéal pour : Les équipes concentrées sur qualité RAG, métriques de retrieval, génération de testsets synthétiques et expériences d’évaluation plutôt que dashboards complets de production.
Ragas est un framework open source RAG très connu. Sa documentation couvre les workflows d’évaluation,42 son site explique le projet,43 les intégrations sont documentées,44 et des conseils de coût existent.45
Capacités clés
- Métriques d’évaluation RAG.
- Génération de testsets et expérimentation.
- Intégrations avec l’outillage LLM plus large.44
- Conseils sensibles aux coûts.45
- Utile pour qualité de retrieval et analyse d’ancrage des réponses.
Forces
Ragas est excellent lorsque le risque principal est la qualité de retrieval : contexte incomplet, mauvais grounding, faible fidélité ou mauvais recall. Il complète bien des plateformes comme Langfuse ou Phoenix.
Limites
Ragas n’est pas un dashboard autonome d’observabilité de production. Il ne remplace pas ingestion de traces, alerting, analytique de sessions, monitoring des coûts ou workflows de revue entreprise.
Prix / métriques publiques
Documentation et site Ragas sont publics.4243 Aucun prix public ni revenu pour une plateforme Ragas managée n’a été trouvé.
Matrice de comparaison
| Rang | Outil | Idéal pour | Position OSS / auto-hébergement | Profondeur traces agents | Maturité évaluation | Observabilité production | Compatibilité OTel / écosystème | Transparence tarifaire |
|---|---|---|---|---|---|---|---|---|
| 1 | LangSmith | Meilleur harnais global agents production | SaaS propriétaire | Excellente | Excellente | Excellente | Forte, surtout LangChain/LangGraph | Prix publics |
| 2 | Braintrust | Équipes evaluation-first | SaaS propriétaire | Forte | Excellente | Forte | Forte, docs OpenTelemetry | Prix publics |
| 3 | Langfuse | Harnais polyvalent open source / auto-hébergé | OSS fort + auto-hébergement | Forte | Forte | Forte | OpenTelemetry natif fort | Prix publics |
| 4 | Arize Phoenix / AX | OTel/OpenInference et observabilité entreprise | Phoenix OSS + AX entreprise | Forte | Forte | Excellente | Excellente orientation OTel/OpenInference | Prix entreprise pas entièrement publics |
| 5 | Galileo | Évaluation agentique entreprise managée | SaaS propriétaire | Forte | Forte | Forte | Intégrations publiques, moins OSS | Page prix publique |
| 6 | DeepEval / Confident AI | Evals code-first et tests CI | DeepEval OSS + plateforme managée | Modérée à forte | Forte | Modérée sauf plateforme | Forte compatibilité développeur | Prix publics |
| 7 | OpenAI Agent Evals | Agents OpenAI-native | Repo OpenAI evals + stack API | Forte dans stack OpenAI | Forte dans stack OpenAI | Modérée via intégrations | Forte pour écosystème OpenAI | Prix API publics |
| 8 | Helicone | Observabilité gateway et analyse coûts | Repo OSS + SaaS | Modérée | Modérée | Forte pour requêtes/coûts | Bonnes intégrations SDK/provider | Prix publics |
| 9 | Ragas | Métriques d’évaluation RAG | Framework open source | Limitée comme dashboard | Forte pour RAG | Limitée | Bonnes intégrations | Pas entièrement applicable |
Où se situe MCPlato : le harnais d’espace de travail autour du harnais d’évaluation
MCPlato ne doit pas être classé ici comme fournisseur direct d’évaluation ou d’observabilité. Ce n’est pas un dashboard d’évaluation, pas un pipeline OpenTelemetry, pas un entrepôt de traces de production, et pas un remplacement de LangSmith, Braintrust, Langfuse, Phoenix/AX, Galileo, DeepEval, OpenAI Agent Evals, Helicone ou Ragas.
Son rôle est différent : MCPlato est un AI Partner local-first et un harnais d’espace de travail.46 Il aide les équipes à coordonner le travail humain et IA avant, autour et après l’évaluation formelle :
- rechercher les échecs d’agents et douleurs utilisateurs ;
- prototyper des workflows d’agents entre fichiers, sessions navigateur et outils ;
- préparer des jeux de données d’évaluation depuis documents locaux, notes, logs et recherches ;
- exécuter un travail IA multi-session avec contexte local persistant ;
- garder les humains dans la boucle pendant débogage et revue ;
- organiser mémoire de workspace, artefacts et matériaux connectés.
Workflow pratique : utiliser MCPlato pour enquêter et rédiger des cas d’évaluation ; utiliser LangSmith, Braintrust, Langfuse, Phoenix/AX, Galileo, DeepEval, OpenAI Agent Evals, Helicone ou Ragas pour télémétrie, ingestion de traces, dashboards, scoring, alerting et régression CI/CD ; ramener les enseignements dans MCPlato pour revue, documentation, itération et collaboration.
Le changelog de MCPlato montre un produit desktop IA en évolution,47 mais les équipes doivent le traiter comme environnement de collaboration et d’orchestration autour du harnais d’évaluation.
Guide de choix par type d’équipe
Si vous êtes une équipe très LangChain ou LangGraph
Commencez avec LangSmith pour relier directement traces natives, monitoring et évaluations.
Si votre organisation construit une discipline d’évaluation
Choisissez Braintrust si datasets, expériences, revue humaine et régressions sont au centre du processus qualité IA.
Si vous avez besoin d’open source ou d’auto-hébergement
Présélectionnez Langfuse, Arize Phoenix, DeepEval, Helicone et Ragas. Langfuse est la meilleure option auto-hébergée polyvalente ; Phoenix est fort pour observabilité ouverte et OpenInference ; DeepEval et Ragas sont plus proches de frameworks.
Si OpenTelemetry est prioritaire
Examinez Arize Phoenix / AX, Langfuse et Braintrust. Les traces d’agents devraient coexister avec traces de services, métriques infrastructure et workflows d’incidents.
Si vous avez besoin d’une évaluation entreprise managée
Évaluez Galileo, Arize AX, Braintrust et LangSmith selon gouvernance, support, déploiement, intégrations et logique d’évaluation à posséder.
Si vous êtes OpenAI-native
Utilisez tôt OpenAI Agent Evals, surtout avec OpenAI Agents et trace grading natif. Ajoutez une couche neutre si l’expansion multi-modèles ou multi-frameworks est probable.
Si vous avez besoin d’une visibilité rapide requêtes/coûts
Commencez avec Helicone.
Si la qualité RAG est le risque principal
Utilisez Ragas avec un outil d’observabilité plus large.
Si le goulot d’étranglement est l’orchestration du workspace
Utilisez MCPlato pour recherche, prototypage, débogage, préparation de datasets et collaboration humaine, puis connectez les résultats à une plateforme d’évaluation/observabilité dédiée.
Vue d’ensemble : Evals + traces + OTel + revue humaine + orchestration de workspace
La qualité des agents en production devient une boucle fermée :
- Tout instrumenter. Capturer appels modèles, appels outils, retrieval, transferts, feedback utilisateur, coûts, latence et erreurs.
- Convertir les traces en évaluations. Chaque échec sérieux devient ligne de dataset, test de régression ou item de revue.
- Exécuter les évaluations avant déploiement. Les gates CI/CD détectent régressions de prompts, modèles, outils et workflows.
- Surveiller après déploiement. Scores en ligne, alertes et dashboards révèlent dérive et échecs silencieux.
- Garder les humains dans la boucle. Les reviewers restent essentiels pour ambiguïtés, politiques, cas limites et calibration de confiance.
- Utiliser l’orchestration de workspace. Des outils comme MCPlato organisent recherche, contexte, fichiers, mémoire, collaboration et artefacts de débogage.
Aucun outil ne possède parfaitement toute la boucle. LangSmith, Braintrust, Langfuse, Phoenix/AX, Galileo, DeepEval, OpenAI Agent Evals, Helicone et Ragas couvrent des portions différentes. MCPlato couvre la couche locale où humains et agents IA préparent, inspectent et itèrent avant que les systèmes qualité de production n’appliquent les règles.
Pour la plupart des équipes en 2026, la stack gagnante ne sera pas un seul dashboard, mais une combinaison de traces d’agents, évaluations répétables, observabilité compatible OpenTelemetry, revue humaine et harnais de workspace qui garde le travail cohérent.
Références
Footnotes
-
LangSmith Observability — https://www.langchain.com/langsmith/observability ↩
-
LangSmith Evaluation Docs — https://docs.langchain.com/langsmith/evaluation ↩
-
LangChain Pricing — https://www.langchain.com/pricing ↩ ↩2
-
Braintrust Homepage — https://www.braintrust.dev/ ↩
-
Braintrust OpenTelemetry Integration — https://www.braintrust.dev/docs/integrations/sdk-integrations/opentelemetry ↩ ↩2
-
Braintrust Customers — https://www.braintrust.dev/customers ↩ ↩2
-
Braintrust Series A Announcement — https://www.braintrust.dev/blog/announcing-series-a ↩
-
Braintrust Pricing — https://www.braintrust.dev/pricing ↩
-
Langfuse GitHub — https://github.com/langfuse/langfuse ↩
-
Langfuse Pricing — https://langfuse.com/pricing ↩ ↩2
-
Langfuse Self-hosting — https://langfuse.com/self-hosting ↩ ↩2 ↩3
-
Langfuse OpenTelemetry Integration — https://langfuse.com/integrations/native/opentelemetry ↩ ↩2
-
Langfuse Automated Evaluations — https://langfuse.com/blog/2025-09-05-automated-evaluations ↩
-
Arize Phoenix — https://arize.com/phoenix/ ↩ ↩2
-
Arize Agent Observability — https://arize.com/ai-agents/agent-observability/ ↩ ↩2
-
Arize Phoenix GitHub — https://github.com/arize-ai/phoenix ↩ ↩2
-
Arize AX OpenTelemetry Integration — https://arize.com/docs/ax/integrations/opentelemetry/opentelemetry-arize-otel ↩
-
Arize OTel / OpenInference Blog — https://arize.com/blog/zero-to-a-million-instrumenting-llms-with-otel/ ↩
-
Arize Series C Announcement — https://arize.com/blog/arize-ai-raises-70m-series-c-to-build-the-gold-standard-for-ai-evaluation-observability/ ↩ ↩2
-
Galileo Homepage — https://galileo.ai/ ↩
-
Galileo Pricing — https://galileo.ai/pricing ↩ ↩2
-
Galileo Case Studies — https://galileo.ai/case-studies ↩ ↩2
-
Google Cloud Customer Story: Galileo — https://cloud.google.com/customers/galileo ↩ ↩2 ↩3
-
Galileo Agentic Evaluations Announcement — https://www.prnewswire.com/news-releases/galileo-launches-agentic-evaluations-to-empower-developers-to-build-reliable-ai-agents-302358451.html ↩ ↩2
-
DeepEval Homepage — https://deepeval.com/ ↩
-
DeepEval GitHub — https://github.com/confident-ai/deepeval ↩ ↩2
-
Confident AI DeepEval Framework — https://www.confident-ai.com/frameworks/deepeval ↩
-
Confident AI Docs — https://www.confident-ai.com/docs ↩ ↩2
-
Confident AI Pricing — https://www.confident-ai.com/pricing ↩ ↩2
-
OpenAI Agent Evals Guide — https://developers.openai.com/api/docs/guides/agent-evals ↩ ↩2
-
OpenAI Agents Guide — https://developers.openai.com/api/docs/guides/agents ↩ ↩2
-
OpenAI Agents Observability Integrations — https://developers.openai.com/api/docs/guides/agents/integrations-observability ↩ ↩2
-
OpenAI Trace Grading — https://developers.openai.com/api/docs/guides/trace-grading ↩ ↩2
-
OpenAI Evals GitHub — https://github.com/openai/evals ↩
-
OpenAI Pricing — https://developers.openai.com/api/docs/pricing ↩
-
Helicone Pricing — https://www.helicone.ai/pricing ↩ ↩2
-
Helicone Scores Docs — https://docs.helicone.ai/features/advanced-usage/scores ↩ ↩2
-
Helicone GitHub — https://github.com/Helicone/helicone ↩ ↩2
-
AI SDK Helicone Observability Provider — https://ai-sdk.dev/providers/observability/helicone ↩ ↩2
-
Helicone LLM Observability Platforms Guide — https://www.helicone.ai/blog/the-complete-guide-to-LLM-observability-platforms ↩
-
Helicone Prompt Evaluation Frameworks Guide — https://www.helicone.ai/blog/prompt-evaluation-frameworks ↩
-
Ragas Docs — https://docs.ragas.io/en/stable/ ↩ ↩2
-
Ragas Website — https://www.ragas.io/ ↩ ↩2
-
Ragas Integrations — https://docs.ragas.io/en/stable/howtos/integrations/ ↩ ↩2
-
Ragas Cost Docs — https://docs.ragas.io/en/v0.2.5/howtos/applications/_cost/ ↩ ↩2
-
MCPlato Homepage — https://mcplato.com/en/ ↩
-
MCPlato Changelog — https://mcplato.com/en/changelog/ ↩
