AI agents

pile d'agents

agent harness

runtime

espace de travail AI

MCPlato

La pile d'agents au premier semestre 2026 : modèles, harnesses, runtimes et espaces de travail AI

Un panorama concis du premier semestre 2026 sur les AI agents, les agents de codage, les harnesses, les runtimes, l'infrastructure de navigateur et de sandbox, l'observabilité, la gouvernance et les espaces de travail AI, avec MCPlato positionne dans la couche workspace.

MCPlato Research TeamPublié le 2026-05-29

La course aux agents au premier semestre 2026 ne ressemble plus à un simple classement de modèles.

De meilleurs modèles comptent toujours. Claude 4, Claude Sonnet 4.5, Claude Opus 4.8, Gemini 2.5 Pro, DeepSeek R1/V3.1, Qwen3-Coder et Mistral Magistral ont tous fait progresser la couche de base en raisonnement, codage, contexte et utilisation d'outils.¹²³⁴⁵⁶⁷⁸ Mais la question concurrentielle a changé :

Qui peut mettre ces modèles au service d'un travail fiable ?

Cela signifie harnesses, runtimes, navigateurs, sandboxes, évaluations, observabilité, gouvernance, permissions et espaces de travail orientés utilisateur. Le modèle est le moteur. Le produit agent est le véhicule. Le harness et le workspace déterminent si ce véhicule peut fonctionner dans une vraie entreprise sans perdre l'état, l'autorité ou la confiance.

La pile d'agents en couches du premier semestre 2026

Une façon utile de lire le marché consiste à le voir comme une pile, pas comme un répertoire de logos.

Une pile d'agents en couches du premier semestre 2026, des modèles de fondation à l'espace de travail AI

Illustration 1 : la pile d'agents du premier semestre 2026 remonte des capacités des modèles vers l'exécution, l'observabilité, la gouvernance et la continuité du workspace.

Couche	Ce qu'elle apporte	Exemples représentatifs
Modèles de fondation	Raisonnement, codage, long contexte, utilisation de l'ordinateur/des outils, planification	Claude 4 / Sonnet 4.5 / Opus 4.8, Gemini 2.5 Pro, DeepSeek R1/V3.1, Qwen3-Coder, Mistral Magistral
Produits agents	Workflows packagés pour le codage, la recherche, la création d'apps, les opérations et les processus d'entreprise	Claude Code, OpenAI Codex, GitHub Copilot coding agent, Cursor, Devin, Jules, Replit Agent, Lovable, Bolt.new, Manus, Perplexity Labs
Harness / runtime	État, relances, humain dans la boucle, orchestration, mémoire, appels d'outils structurés	LangGraph/LangChain, LlamaIndex, AutoGen, CrewAI, OpenAI Agents SDK, Vercel AI SDK, Mastra, PydanticAI, Agno, Letta
Infrastructure navigateur et sandbox	Environnements d'exécution sûrs, automatisation de navigateur, sandboxes de code, isolation des tâches	Browserbase, Stagehand, Playwright MCP, E2B, Daytona, Temporal, Arcade, Composio
Observabilité et évaluations	Traces, coûts, latence, tests de régression, débogage de prompts/outils, revue de production	LangSmith, Langfuse, Helicone, benchmarks de modèles et d'agents
Gouvernance d'entreprise	Visibilité, contrôle d'accès, politiques, inventaire d'agents, auditabilité, workflows de conformité	Microsoft Copilot Studio, Salesforce Agentforce, ServiceNow AI Control Tower, schémas d'intégration fondés sur MCP
Espace de travail AI	Le lieu orienté utilisateur où le travail multi-étapes, les fichiers, les sessions, les artefacts et les décisions persistent	MCPlato, Dust, Hebbia, plateformes d'agents de type workspace

Le point important n'est pas que chaque produit doive couvrir chaque couche. C'est que le travail agent sérieux a désormais besoin de toutes ces couches quelque part dans le système.

Des clusters de produits, pas un répertoire brut

1. Les agents de codage sont devenus la première catégorie d'agents grand public

Les agents de codage sont la preuve la plus claire que les agents peuvent dépasser le chat. Claude Code est devenu généralement disponible avec Claude 4 et il est documenté comme un agentic coding tool pour les workflows de terminal et de développement.¹⁹ OpenAI Codex, GitHub Copilot coding agent, Cursor, Devin, Google Jules et Replit Agent pointent tous dans la même direction : les développeurs veulent des agents capables d'inspecter des repositories, de modifier des fichiers, d'exécuter des commandes, d'ouvrir des pull requests et de poursuivre le travail entre contextes locaux et cloud.¹⁰¹¹¹²¹³¹⁴¹⁵

Ce cluster est en avance parce que le travail logiciel possède déjà des garde-fous utiles : fichiers, diffs, tests, logs, branches, CI et revue. La leçon pour le reste du marché n'est pas que « tout devrait être du codage ». Elle est que les agents ont besoin d'artefacts révisables et de boucles de vérification.

2. Les app builders et les agents généraux ont transformé les prompts en workflows

Lovable, Bolt.new, Replit Agent et Manus sont des exemples de produits centrés sur la production d'apps, de sites web ou de travail exécutable ; Perplexity décrit Labs comme une fonctionnalité de création pour des projets tels que des rapports, des tableaux de bord et des apps légères.¹⁶¹⁷¹⁸¹⁹ La documentation développeur d'OpenAI décrit des primitives de computer-use et de construction d'agents, y compris une surface visuelle d'outil navigateur ; il vaut donc mieux traiter son orientation agent comme une partie du même basculement vers les workflows plutôt que comme une simple fonctionnalité de chat.²⁰²¹

Ces produits compressent la distance entre intention et artefact. Leur défi est le même que celui du marché agent plus large : dès que la tâche devient longue, multi-étapes ou visible de l'extérieur, le produit a besoin d'état, de permissions, de rollback et d'un transfert clair du brouillon généré vers l'actif de production.

3. Les agents d'entreprise passent de l'adoption au contrôle

Salesforce Agentforce, ServiceNow AI Control Tower et Microsoft Copilot Studio reflètent tous cette réalité d'entreprise.²²²³²⁴²⁵ L'adoption des agents dépend maintenant de la visibilité, des politiques, des permissions et de la responsabilité opérationnelle, pas seulement de la qualité des prompts.

Zapier Agents, Lindy, Gumloop, Dust et Hebbia sont plus proches de l'automatisation de workflows et du knowledge work pour les équipes métier.²⁶²⁷²⁸²⁹³⁰ Ils comptent parce que l'adoption des agents n'est pas seulement un problème d'ingénierie. Les équipes commerciales, finance, juridique, opérations, recrutement, recherche et support ont aussi besoin de systèmes agents capables d'utiliser des outils sans contourner silencieusement les politiques.

4. Frameworks et runtimes sont devenus la couche intermédiaire des agents

LangGraph/LangChain, LangSmith, LlamaIndex, AutoGen, CrewAI, OpenAI Agents SDK, Vercel AI SDK, Mastra, PydanticAI, Agno et Letta représentent la couche de construction sous les produits packagés.³¹³²³³³⁴³⁵³⁶³⁷³⁸³⁹⁴⁰⁴¹⁴²

C'est dans cette couche que l'état durable, la mémoire, le routage d'outils, l'approbation humaine, les sorties structurees et l'orchestration multi-agents deviennent des primitives réutilisables. C'est aussi là que beaucoup d'équipes découvrent qu'« agent » n'est pas une abstraction unique. Un assistant de retrieval, un coding worker, un opérateur de navigateur, un analyste financier et un agent de service client ont besoin de contrats runtime différents.

5. L'infrastructure et l'observabilité sont devenues des exigences de production

Browserbase, Stagehand, Playwright MCP, E2B, Daytona, Temporal, Arcade et Composio ne sont pas des outils périphériques. Ils font partie du plan de contrôle des agents.⁴³⁴⁴⁴⁵⁴⁶⁴⁷⁴⁸⁴⁹⁵⁰

Les agents ont besoin de navigateurs parce qu'une grande partie du web de travail n'a toujours pas d'API propres. Ils ont besoin de sandboxes parce que le code et les outils doivent s'exécuter dans des environnements isolés. Ils ont besoin de moteurs de workflow durables parce que les longues tâches échouent et reprennent. Ils ont besoin de passerelles d'intégration parce que les identifiants, les permissions et les portées d'action ne devraient pas être improvisés dans un prompt.

LangSmith, Langfuse et Helicone montrent la même maturation du côté de l'observabilité.³²⁵¹⁵² Si un agent touche des données clients, des systèmes de production ou des appels de modèles coûteux, les équipes ont besoin de traces, d'évaluations, de visibilité sur les coûts, de visibilité sur la latence et de contrôles de régression.

Cinq tendances à surveiller

1. La différenciation par le modèle seul s'efface au profit de la différenciation par le runtime

Les meilleurs modèles convergent vers un codage solide, l'utilisation d'outils, le long contexte et la planification. Anthropic rapporte les résultats de codage de Claude 4 et la disponibilité de Claude Code, tandis que Gemini 2.5 Pro met l'accent sur le codage et le long contexte, DeepSeek V3.1 se présente comme une étape vers l'ère des agents, et Qwen3-Coder souligne de grands environnements d'entraînement pour code agents.¹⁴⁶⁷

Cela rend le runtime plus important, pas moins. Lorsque plusieurs modèles de base raisonnent suffisamment bien, les équipes choisissent la pile capable de conserver l'état, d'appeler les outils en sécurité, d'évaluer les résultats et de garder les humains aux commandes.

2. L'observabilité devient le passage obligé vers la production

La question « Le modèle a-t-il répondu ? » est trop faible pour les agents. Les équipes de production doivent savoir :

Quels outils ont été appelés ?
Quel état a changé ?
Quelles preuves soutiennent l'achèvement ?
Combien l'exécution a-t-elle coûté ?
Où la latence est-elle apparue ?
Quel changement de prompt, de modèle, d'outil ou d'environnement a provoqué une régression ?

C'est pourquoi LangSmith, Langfuse, Helicone, les suites de benchmarks et les centres de commande d'entreprise entrent dans la discussion d'achat. Une entreprise ne peut pas gouverner ce qu'elle ne voit pas.

3. Les navigateurs et sandboxes de code deviennent une infrastructure de premier rang

Les agents de computer use et les agents de codage ont besoin de surfaces d'exploitation sûres. Browserbase et Stagehand se concentrent sur l'automatisation de navigateur pour les AI agents ; Playwright MCP expose le contrôle du navigateur via MCP ; E2B et Daytona se concentrent sur les environnements d'exécution isolés ; Temporal cadre l'exécution durable pour les workflows agentic AI.⁴³⁴⁴⁴⁵⁴⁶⁴⁷⁵³

C'est l'un des changements les plus importants du premier semestre 2026 : l'« environnement agent » devient une catégorie de produit. L'environnement est l'endroit où l'autonomie devient utile ou dangereuse.

4. Gouvernance et protocoles deviennent des attentes par défaut

MCP est important parce qu'il donne au marché un langage commun pour connecter les modèles aux outils et au contexte.⁵⁴⁵⁵ Mais les protocoles ne suppriment pas les exigences de gouvernance. Ils les rendent plus urgentes : une fois les outils plus faciles à connecter, les équipes ont besoin de politiques plus claires sur qui peut les connecter, quelles actions sont autorisées, comment les identifiants sont limités et comment l'activité est auditée.

Salesforce Agentforce, ServiceNow AI Control Tower et Microsoft Copilot Studio reflètent tous cette réalité d'entreprise. L'adoption des agents dépend maintenant de la visibilité, des politiques, des permissions et de la responsabilité opérationnelle, pas seulement de la qualité des prompts.

5. Le workspace asynchrone multi-session est la couche utilisateur manquante

Un fil de chat unique est un mauvais conteneur pour le travail long. Le vrai travail agent se ramifie souvent : une session recherche, une autre rédige, une autre teste, une autre relit, une autre attend un suivi planifié. Les utilisateurs ont besoin d'un lieu où ces flux de travail, fichiers, décisions et artefacts restent inspectables.

C'est là que MCPlato s'insère naturellement. MCPlato se comprend le mieux comme une couche d'espace de travail AI : un environnement pour les matériaux locaux, les sessions multiples, le travail en arrière-plan ou planifié, les artefacts et l'exécution permissionnée et observable.⁵⁶ Il ne devrait pas être traité comme un substitut universel aux agents de codage, aux tours de contrôle d'entreprise ou à l'infrastructure de navigateur. Son rôle est différent : aider les utilisateurs à organiser et superviser le travail AI qui traverse documents, recherche, contexte navigateur, livrables bureautiques et suivi asynchrone.

Autrement dit, MCPlato appartient à la couche workspace de la pile d'agents : proche de l'utilisateur, proche des matériaux, et au-dessus des composants runtime et infrastructure de plus bas niveau qui rendent l'exécution possible.

Un cadre de décision pratique

Une matrice de décision pour choisir des produits agents selon l'horizon d'autonomie et les besoins de gouvernance

Illustration 2 : les choix de pile agent doivent reposer sur l'horizon d'autonomie et la pression de gouvernance, pas sur un classement universel unique.

Posez cinq questions avant de choisir une pile agent.

Question	Si la réponse est « oui », prioriser
L'agent modifiera-t-il du code, des données, des enregistrements ou des systèmes externes ?	Sandbox, permissions, journaux d'audit, portes de revue, chemins de rollback
La tâche durera-t-elle plus d'un prompt ou d'une session ?	État durable, checkpoints, exécution en arrière-plan, continuité du workspace
L'agent utilisera-t-il des navigateurs ou exécutera-t-il du code ?	Infrastructure d'automatisation de navigateur, sandboxes isolées, limités d'identifiants
Plusieurs équipes dépendront-elles du résultat ?	Observabilité, évaluations, suivi des coûts, politiques, ownership
Les utilisateurs devront-ils superviser de nombreux flux de travail paralleles ?	AI workspace, orchestration multi-session, artefacts, résumés, discipline de transfert

Une correspondance simple aide :

Tâche de codage courte : commencez avec un agent natif du codage comme Claude Code, Codex, Cursor, Jules, Devin, Replit Agent ou GitHub Copilot coding agent.
Prototype d'app : envisagez Lovable, Bolt.new, Replit Agent ou des surfaces de builder similaires, puis ajoutez une revue avant l'usage en production.
Automatisation de workflow métier : regardez Copilot Studio, Agentforce, ServiceNow, Zapier Agents, Lindy, Gumloop, Dust ou Hebbia selon les données, la gouvernance et l'adéquation au domaine.
Produit agent personnalisé : assemblez des éléments runtime et infrastructure comme LangGraph, LlamaIndex, CrewAI, OpenAI Agents SDK, Vercel AI SDK, MCP, Browserbase, E2B, Temporal, Composio, Langfuse, Helicone et LangSmith.
Knowledge work entre plusieurs matériaux : utilisez un schéma d'espace de travail AI, dont MCPlato est un exemple pertinent, surtout lorsque le travail traverse matériaux locaux, recherche, artefacts, sessions multiples et exécution permissionnée.

Conclusion

Le paysage des agents au premier semestre 2026 n'est pas une bataille entre « modèles » et « produits ». C'est l'émergence d'une pile complète.

Les modèles fournissent le substrat de raisonnement. Les produits agents packagent des tâches courantes. Les harnesses et runtimes gardent le travail avec état. L'infrastructure navigateur et sandbox rend l'utilisation d'outils plus sûre. L'observabilité et les évaluations rendent l'exécution inspectable. La gouvernance rend l'autonomie acceptable dans les organisations. Les espaces de travail AI donnent aux utilisateurs un lieu pour coordonner le travail long.

Les gagnants ne seront pas simplement les équipes avec le plus grand score de benchmark modèle. Ce seront les équipes capables de transformer l'intelligence des modèles en workflows fiables, révisables et permissionnés.

Références

Footnotes

Anthropic, “Introducing Claude 4,” https://www.anthropic.com/news/claude-4 ↩ ↩² ↩³
Anthropic, “Claude Sonnet 4.5,” https://www.anthropic.com/news/claude-sonnet-4-5 ↩
Anthropic, “Claude Opus 4.8,” https://www.anthropic.com/news/claude-opus-4-8 ↩
Google, “Gemini 2.5 Pro coding performance,” https://developers.googleblog.com/en/gemini-2-5-pro-io-improved-coding-performance/ ↩ ↩²
DeepSeek, “DeepSeek-R1 release,” https://api-docs.deepseek.com/news/news250120 ↩
DeepSeek, “DeepSeek-V3.1 release,” https://api-docs.deepseek.com/news/news250821 ↩ ↩²
Qwen, “Qwen3-Coder,” https://qwenlm.github.io/blog/qwen3-coder/ ↩ ↩²
Mistral AI, “Magistral,” https://mistral.ai/news/magistral ↩
Anthropic, “Claude Code overview,” https://code.claude.com/docs/en/overview ↩
OpenAI Codex developer documentation, https://developers.openai.com/codex ↩
GitHub, “GitHub Copilot coding agent in public preview,” https://github.blog/changelog/2025-05-19-github-copilot-coding-agent-in-public-preview/ ↩
Cursor changelog, https://cursor.com/changelog ↩
Cognition, “Devin 2,” https://cognition.ai/blog/devin-2 ↩
Google, “Jules now available,” https://blog.google/innovation-and-ai/models-and-research/google-labs/jules-now-available/ ↩
Replit, “Introducing Agent 3,” https://replit.com/blog/introducing-agent-3-our-most-autonomous-agent-yet ↩
Lovable, https://lovable.dev/ ↩
Bolt.new, https://bolt.new/ ↩
Manus, https://manus.im/ ↩
Perplexity, “Getting started with Labs,” https://www.perplexity.ai/hub/getting-started ↩
OpenAI developer documentation, “Computer use,” https://developers.openai.com/api/docs/guides/tools-computer-use ↩
OpenAI developer documentation, “Agents,” https://developers.openai.com/api/docs/guides/agents ↩
Salesforce, “Salesforce launches Agentforce 3,” https://www.salesforce.com/ap/news/press-releases/2025/06/24/salesforce-launches-agentforce-3-to-solve-the-biggest-blockers-to-scaling-ai-agents-visibility-and-control/ ↩
ServiceNow, “AI Control Tower,” https://www.servicenow.com/products/ai-control-tower.html ↩
Microsoft Copilot Studio release plan, https://learn.microsoft.com/en-us/power-platform/release-plan/2025wave2/microsoft-copilot-studio/ ↩
Microsoft, “6 core capabilities to scale agent adoption in 2026,” https://www.microsoft.com/en-us/microsoft-copilot/blog/copilot-studio/6-core-capabilities-to-scale-agent-adoption-in-2026/ ↩
Zapier, “AI agents survey,” https://zapier.com/blog/ai-agents-survey/ ↩
Lindy Agents, https://www.lindy.ai/agents ↩
Gumloop, https://www.gumloop.com/ ↩
Dust documentation, “Welcome to Dust,” https://docs.dust.tt/docs/welcome-to-dust ↩
Hebbia product, https://www.hebbia.com/product ↩
LangChain, “LangChain and LangGraph 1.0,” https://www.langchain.com/blog/langchain-langgraph-1dot0 ↩
LangSmith platform, https://www.langchain.com/langsmith-platform ↩ ↩²
LlamaIndex, “Introducing LlamaIndex 0.11,” https://www.llamaindex.ai/blog/introducing-llamaindex-0-11 ↩
Microsoft Research, AutoGen, https://www.microsoft.com/en-us/research/project/autogen/ ↩
CrewAI, “CrewAI OSS 1.0,” https://blog.crewai.com/crewai-oss-1-0-we-are-going-ga/ ↩
OpenAI Agents SDK, https://openai.github.io/openai-agents-python/ ↩
Vercel AI SDK documentation, https://ai-sdk.dev/docs/introduction ↩
Vercel, “Agentic infrastructure,” https://vercel.com/blog/agentic-infrastructure ↩
Mastra, https://mastra.ai/ ↩
PydanticAI documentation, https://pydantic.dev/docs/ai/ ↩
Agno documentation, https://docs.agno.com/introduction ↩
Letta, “Letta v1 agent,” https://www.letta.com/blog/letta-v1-agent ↩
Browserbase for AI, https://www.browserbase.com/industry/ai ↩ ↩²
Browserbase Stagehand, https://www.browserbase.com/stagehand ↩ ↩²
Microsoft Playwright MCP, https://github.com/microsoft/playwright-mcp ↩ ↩²
E2B Enterprise, https://e2b.dev/enterprise ↩ ↩²
Daytona sandboxes, https://www.daytona.io/docs/en/sandboxes/ ↩ ↩²
Temporal AI solutions, https://temporal.io/solutions/ai ↩
Arcade, https://www.arcade.dev/ ↩
Composio, https://composio.dev/ ↩
Langfuse documentation, https://langfuse.com/docs ↩
Helicone, https://www.helicone.ai/ ↩
Temporal, Agentic AI, https://temporal.io/ai/agentic-ai ↩
Anthropic, “Model Context Protocol,” https://www.anthropic.com/news/model-context-protocol ↩
Model Context Protocol, “2026 MCP Roadmap,” https://blog.modelcontextprotocol.io/posts/2026-mcp-roadmap/ ↩
MCPlato, https://mcplato.com/en/ ↩

Lire la suite

OpenClaw vs Claude Code vs Hermes vs MCPlato : Analyse approfondie des infrastructures d'agents IA 2026
Une comparaison basée sur les données des quatre principales infrastructures d'agents IA en 2026. Nous analysons OpenClaw, Claude Code, Hermes Agent et MCPlato selon l'architecture, les benchmarks, les tarifs et l'adéquation au monde réel.
Pi, Hermes, Codex, Claude Code et MCPlato : quel Agent correspond à votre travail ?
Une comparaison pratique, fondée sur les scénarios, de Pi Agent, Hermes Agent, Codex, Claude Code et MCPlato selon le contrôle, l'adéquation au workflow, les tâches longues et la stratégie d'autorisations.
Harness and Agent : L'Architecture en Couches des Systèmes d'IA
Explorer la relation entre la couche d'outils et la couche d'agent, et comment MCPlato implémente une architecture native MCP
Percée technique des agents IA longue durée : pourquoi le framework Harness d'Anthropic mérite l'attention
L'IA ne parvient pas à accomplir des tâches longues non pas par manque d'intelligence, mais par absence de méthodes de travail d'ingénierie. Analyse approfondie des quatre mécanismes clés du framework Harness d'Anthropic et de la façon dont MCPlato implémente des conceptions d'ingénierie similaires.
Pourquoi SaaS-Bench montre que les AI Agents ont besoin de Harnesses, pas seulement de modèles plus grands
SaaS-Bench teste des computer-use agents sur de véritables workflows SaaS professionnels et expose l'écart entre progression partielle et achèvement vérifié. Le résultat désigne les agent harnesses, workspace state, verification, permissions et recovery comme la prochaine couche produit.