AI agents

pila de agentes

agent harness

runtime

espacio de trabajo AI

MCPlato

La pila de agentes en H1 de 2026: modelos, harnesses, runtimes y espacios de trabajo AI

Un panorama conciso de H1 de 2026 sobre AI agents, agentes de código, harnesses, runtimes, infraestructura de navegador y sandbox, observabilidad, gobernanza y espacios de trabajo AI, con MCPlato situado en la capa de workspace.

MCPlato Research TeamPublicado el 2026-05-29

La carrera de agentes en H1 de 2026 ya no parece una simple tabla de clasificación de modelos.

Los mejores modelos siguen importando. Claude 4, Claude Sonnet 4.5, Claude Opus 4.8, Gemini 2.5 Pro, DeepSeek R1/V3.1, Qwen3-Coder y Mistral Magistral empujaron la capa base en razonamiento, código, contexto y uso de herramientas.¹²³⁴⁵⁶⁷⁸ Pero la pregunta competitiva ha cambiado:

¿Quién puede convertir esos modelos en trabajo fiable?

Eso implica harnesses, runtimes, navegadores, sandboxes, evaluaciones, observabilidad, gobernanza, permisos y espacios de trabajo orientados al usuario. El modelo es el motor. El producto de agente es el vehículo. El harness y el workspace deciden si ese vehículo puede funcionar dentro de una empresa real sin perder estado, autoridad o confianza.

La pila de agentes por capas en H1 de 2026

Una forma útil de leer el mercado es verlo como una pila, no como un directorio de logotipos.

Una pila de agentes por capas en H1 de 2026 desde modelos fundacionales hasta espacio de trabajo AI

Figura 1: La pila de agentes de H1 de 2026 se desplaza hacia arriba desde la capacidad del modelo hacia ejecución, observabilidad, gobernanza y continuidad del workspace.

Capa	Qué aporta	Ejemplos representativos
Modelos fundacionales	Razonamiento, código, contexto largo, uso de computadora/herramientas, planificación	Claude 4 / Sonnet 4.5 / Opus 4.8, Gemini 2.5 Pro, DeepSeek R1/V3.1, Qwen3-Coder, Mistral Magistral
Productos de agente	Workflows empaquetados para código, investigación, creación de apps, operaciones y procesos empresariales	Claude Code, OpenAI Codex, GitHub Copilot coding agent, Cursor, Devin, Jules, Replit Agent, Lovable, Bolt.new, Manus, Perplexity Labs
Harness / runtime	Estado, reintentos, humano en el bucle, orquestación, memoria, llamadas estructuradas a herramientas	LangGraph/LangChain, LlamaIndex, AutoGen, CrewAI, OpenAI Agents SDK, Vercel AI SDK, Mastra, PydanticAI, Agno, Letta
Infraestructura de navegador y sandbox	Entornos de ejecución seguros, automatización de navegador, sandboxes de código, aislamiento de tareas	Browserbase, Stagehand, Playwright MCP, E2B, Daytona, Temporal, Arcade, Composio
Observabilidad y evaluaciones	Trazas, coste, latencia, pruebas de regresión, depuración de prompts/herramientas, revisión de producción	LangSmith, Langfuse, Helicone, benchmarks de modelos y agentes
Gobernanza empresarial	Visibilidad, control de acceso, políticas, inventario de agentes, auditabilidad, workflows de cumplimiento	Microsoft Copilot Studio, Salesforce Agentforce, ServiceNow AI Control Tower, patrones de integración basados en MCP
Espacio de trabajo AI	El lugar orientado al usuario donde persisten el trabajo de múltiples pasos, archivos, sesiones, artefactos y decisiones	MCPlato, Dust, Hebbia, plataformas de agentes tipo workspace

Lo importante no es que cada producto deba cubrir cada capa. Es que el trabajo serio con agentes ahora necesita todas ellas en algún punto del sistema.

Clusters de producto, no un directorio bruto

1. Los agentes de código se convirtieron en la primera categoría masiva de agentes

Los agentes de código son la prueba más clara de que los agentes pueden ir más allá del chat. Claude Code quedó disponible de forma general junto con Claude 4 y está documentado como un agentic coding tool para flujos de terminal y desarrollo.¹⁹ OpenAI Codex, GitHub Copilot coding agent, Cursor, Devin, Google Jules y Replit Agent apuntan en la misma dirección: los desarrolladores quieren agentes que puedan inspeccionar repositorios, editar archivos, ejecutar comandos, abrir pull requests y continuar el trabajo entre contextos locales y de nube.¹⁰¹¹¹²¹³¹⁴¹⁵

Este cluster va por delante porque el trabajo de software ya tiene buenas barandillas: archivos, diffs, pruebas, logs, ramas, CI y review. La lección para el resto del mercado no es que “todo deba ser código”. Es que los agentes necesitan artefactos revisables y bucles de verificación.

2. Los constructores de apps y los agentes generales convirtieron prompts en workflows

Lovable, Bolt.new, Replit Agent y Manus son ejemplos de productos centrados en producir apps, sitios web o trabajo ejecutable; Perplexity describe Labs como una función de creación para proyectos como informes, dashboards y apps ligeras.¹⁶¹⁷¹⁸¹⁹ La documentación para desarrolladores de OpenAI describe primitivas de computer-use y construcción de agentes, incluida una superficie visual de herramienta de navegador; por eso su dirección de agentes se entiende mejor como parte del mismo cambio hacia workflows, y no como una simple función de chat.²⁰²¹

Estos productos comprimen la distancia entre intención y artefacto. Su desafío es el mismo que enfrenta el mercado general de agentes: cuando la tarea se vuelve larga, de múltiples pasos o visible externamente, el producto necesita estado, permisos, rollback y una entrega clara desde el borrador generado hasta el activo de producción.

3. Los agentes empresariales pasan de la adopción al control

Salesforce Agentforce, ServiceNow AI Control Tower y Microsoft Copilot Studio reflejan esta realidad empresarial.²²²³²⁴²⁵ La adopción de agentes ahora depende de visibilidad, política, permisos y propiedad operativa, no solo de calidad de prompt.

Zapier Agents, Lindy, Gumloop, Dust y Hebbia están más cerca de la automatización de workflows y el trabajo de conocimiento para equipos de negocio.²⁶²⁷²⁸²⁹³⁰ Importan porque la adopción de agentes no es solo un problema de ingeniería. Los equipos de ventas, finanzas, legal, operaciones, reclutamiento, investigación y soporte también necesitan sistemas de agentes que puedan usar herramientas sin saltarse políticas en silencio.

4. Frameworks y runtimes se convirtieron en la capa intermedia del agente

LangGraph/LangChain, LangSmith, LlamaIndex, AutoGen, CrewAI, OpenAI Agents SDK, Vercel AI SDK, Mastra, PydanticAI, Agno y Letta representan la capa de construcción debajo de los productos empaquetados.³¹³²³³³⁴³⁵³⁶³⁷³⁸³⁹⁴⁰⁴¹⁴²

En esta capa, el estado duradero, la memoria, el enrutamiento de herramientas, la aprobación humana, las salidas estructuradas y la orquestación multiagente se convierten en primitivas reutilizables. También es donde muchos equipos descubren que “agente” no es una sola abstracción. Un asistente de retrieval, un coding worker, un operador de navegador, un analista financiero y un agente de atención al cliente necesitan contratos de runtime distintos.

5. La infraestructura y la observabilidad se convirtieron en requisitos de producción

Browserbase, Stagehand, Playwright MCP, E2B, Daytona, Temporal, Arcade y Composio no son herramientas periféricas. Son parte del plano de control del agente.⁴³⁴⁴⁴⁵⁴⁶⁴⁷⁴⁸⁴⁹⁵⁰

Los agentes necesitan navegadores porque gran parte de la web de trabajo aún carece de APIs limpias. Necesitan sandboxes porque el código y las herramientas deben ejecutarse en entornos aislados. Necesitan motores de workflow duraderos porque las tareas largas fallan y se reanudan. Necesitan pasarelas de integración porque credenciales, permisos y alcances de acción no deben improvisarse dentro de un prompt.

LangSmith, Langfuse y Helicone muestran la misma maduración desde el lado de la observabilidad.³²⁵¹⁵² Si un agente toca datos de clientes, sistemas de producción o llamadas de modelo costosas, los equipos necesitan trazas, evaluaciones, visibilidad de costes, visibilidad de latencia y comprobaciones de regresión.

Cinco tendencias a observar

1. La diferenciación solo por modelo se desvanece hacia la diferenciación por runtime

Los mejores modelos convergen en buen código, uso de herramientas, contexto largo y planificación. Anthropic informa resultados de codificación de Claude 4 y disponibilidad de Claude Code, mientras Gemini 2.5 Pro enfatiza código y capacidad de contexto largo, DeepSeek V3.1 se presenta como un paso hacia la era de los agentes, y Qwen3-Coder destaca entornos de entrenamiento a gran escala para code agents.¹⁴⁶⁷

Eso hace que el runtime sea más importante, no menos. Cuando varios modelos base pueden razonar lo suficiente, los equipos eligen la pila capaz de preservar estado, llamar herramientas con seguridad, evaluar resultados y mantener a los humanos en control.

2. La observabilidad se está convirtiendo en la puerta de producción

La pregunta “Respondió el modelo?” es demasiado débil para los agentes. Los equipos de producción necesitan saber:

¿Qué herramientas se llamaron?
¿Qué estado cambió?
¿Qué evidencia respalda la finalización?
¿Cuánto costó la ejecución?
¿Dónde apareció la latencia?
¿Qué cambio de prompt, modelo, herramienta o entorno causó una regresión?

Por eso LangSmith, Langfuse, Helicone, suites de benchmarks y centros de comando empresariales se están volviendo parte de la conversación de compra. Una empresa no puede gobernar lo que no puede ver.

3. Los navegadores y sandboxes de código se vuelven infraestructura de primera clase

Los computer-use agents y los agentes de código necesitan superficies operativas seguras. Browserbase y Stagehand se centran en automatización de navegador para AI agents; Playwright MCP expone control del navegador mediante MCP; E2B y Daytona se centran en entornos de ejecución aislados; Temporal presenta ejecución duradera para workflows agentic AI.⁴³⁴⁴⁴⁵⁴⁶⁴⁷⁵³

Este es uno de los cambios más importantes de H1 de 2026: el “entorno del agente” se está convirtiendo en una categoría de producto. El entorno es donde la autonomía se vuelve útil o peligrosa.

4. La gobernanza y los protocolos se vuelven expectativas por defecto

MCP es importante porque da al mercado un lenguaje compartido para conectar modelos con herramientas y contexto.⁵⁴⁵⁵ Pero los protocolos no eliminan los requisitos de gobernanza. Los hacen más urgentes: una vez que las herramientas son más fáciles de conectar, los equipos necesitan políticas más claras sobre quién puede conectarlas, qué acciones están permitidas, cómo se delimitan las credenciales y cómo se audita la actividad.

Salesforce Agentforce, ServiceNow AI Control Tower y Microsoft Copilot Studio reflejan esta realidad empresarial. La adopción de agentes ahora depende de visibilidad, política, permisos y propiedad operativa, no solo de calidad de prompt.

5. El workspace asíncrono multi-sesión es la capa de usuario que falta

Un único hilo de chat es un mal contenedor para trabajo largo. El trabajo real con agentes suele ramificarse: una sesión investiga, otra redacta, otra prueba, otra revisa, otra espera un seguimiento programado. Los usuarios necesitan un lugar donde esos flujos, archivos, decisiones y artefactos sigan siendo inspeccionables.

Aquí es donde MCPlato encaja de forma natural. MCPlato se entiende mejor como una capa de espacio de trabajo AI: un entorno para materiales locales, múltiples sesiones, trabajo en segundo plano o programado, artefactos y ejecución observable con permisos.⁵⁶ No debe tratarse como un reemplazo universal de agentes de código, torres de control empresariales o infraestructura de navegador. Su papel es distinto: ayudar a los usuarios a organizar y supervisar trabajo AI que abarca documentos, investigación, contexto de navegador, salidas de oficina y seguimiento asíncrono.

En otras palabras, MCPlato pertenece a la capa workspace de la pila de agentes: cerca del usuario, cerca de los materiales y por encima de los componentes de runtime e infraestructura de nivel inferior que hacen posible la ejecución.

Un marco práctico de decisión

Una matriz de decisión para elegir productos de agente por horizonte de autonomía y necesidades de gobernanza

Figura 2: Las elecciones de pila de agentes deben basarse en el horizonte de autonomía y la presión de gobernanza, no en un único ranking universal.

Use cinco preguntas antes de elegir una pila de agentes.

Pregunta	Si la respuesta es “sí”, priorice
¿El agente modificará código, datos, registros o sistemas externos?	Sandbox, permisos, logs de auditoría, puertas de review, rutas de rollback
¿La tarea durará más que un prompt o una sesión?	Estado duradero, checkpoints, ejecución en segundo plano, continuidad del workspace
¿El agente usará navegadores o ejecutará código?	Infraestructura de automatización de navegador, sandboxes aisladas, límites de credenciales
¿Varios equipos dependerán del resultado?	Observabilidad, evaluaciones, seguimiento de costes, política, ownership
¿Los usuarios necesitarán supervisar muchos flujos paralelos?	AI workspace, orquestación multi-sesión, artefactos, resúmenes, disciplina de traspaso

Un mapeo simple ayuda:

Tarea corta de código: empiece con un agente nativo de código como Claude Code, Codex, Cursor, Jules, Devin, Replit Agent o GitHub Copilot coding agent.
Prototipo de app: considere Lovable, Bolt.new, Replit Agent o superficies de builder similares, y luego agregue review antes del uso en producción.
Automatización de workflows de negocio: mire Copilot Studio, Agentforce, ServiceNow, Zapier Agents, Lindy, Gumloop, Dust o Hebbia según datos, gobernanza y ajuste de dominio.
Producto de agente personalizado: ensamble piezas de runtime e infraestructura como LangGraph, LlamaIndex, CrewAI, OpenAI Agents SDK, Vercel AI SDK, MCP, Browserbase, E2B, Temporal, Composio, Langfuse, Helicone y LangSmith.
Trabajo de conocimiento entre materiales: use un patrón de AI workspace, donde MCPlato es un ejemplo relevante, especialmente cuando el trabajo abarca materiales locales, investigación, artefactos, múltiples sesiones y ejecución con permisos.

Conclusión

El panorama de agentes en H1 de 2026 no es una batalla entre “modelos” y “productos”. Es la aparición de una pila completa.

Los modelos proporcionan el sustrato de razonamiento. Los productos de agente empaquetan trabajos comunes. Los harnesses y runtimes mantienen el trabajo con estado. La infraestructura de navegador y sandbox hace más seguro el uso de herramientas. La observabilidad y las evaluaciones hacen inspeccionable la ejecución. La gobernanza hace aceptable la autonomía en organizaciones. Los espacios de trabajo AI dan a los usuarios un lugar para coordinar trabajo de larga duración.

Los ganadores no serán simplemente los equipos con el número de benchmark de modelo más grande. Serán los equipos capaces de convertir la inteligencia del modelo en workflows fiables, revisables y con permisos.

Referencias

Footnotes

Anthropic, “Introducing Claude 4,” https://www.anthropic.com/news/claude-4 ↩ ↩² ↩³
Anthropic, “Claude Sonnet 4.5,” https://www.anthropic.com/news/claude-sonnet-4-5 ↩
Anthropic, “Claude Opus 4.8,” https://www.anthropic.com/news/claude-opus-4-8 ↩
Google, “Gemini 2.5 Pro coding performance,” https://developers.googleblog.com/en/gemini-2-5-pro-io-improved-coding-performance/ ↩ ↩²
DeepSeek, “DeepSeek-R1 release,” https://api-docs.deepseek.com/news/news250120 ↩
DeepSeek, “DeepSeek-V3.1 release,” https://api-docs.deepseek.com/news/news250821 ↩ ↩²
Qwen, “Qwen3-Coder,” https://qwenlm.github.io/blog/qwen3-coder/ ↩ ↩²
Mistral AI, “Magistral,” https://mistral.ai/news/magistral ↩
Anthropic, “Claude Code overview,” https://code.claude.com/docs/en/overview ↩
OpenAI Codex developer documentation, https://developers.openai.com/codex ↩
GitHub, “GitHub Copilot coding agent in public preview,” https://github.blog/changelog/2025-05-19-github-copilot-coding-agent-in-public-preview/ ↩
Cursor changelog, https://cursor.com/changelog ↩
Cognition, “Devin 2,” https://cognition.ai/blog/devin-2 ↩
Google, “Jules now available,” https://blog.google/innovation-and-ai/models-and-research/google-labs/jules-now-available/ ↩
Replit, “Introducing Agent 3,” https://replit.com/blog/introducing-agent-3-our-most-autonomous-agent-yet ↩
Lovable, https://lovable.dev/ ↩
Bolt.new, https://bolt.new/ ↩
Manus, https://manus.im/ ↩
Perplexity, “Getting started with Labs,” https://www.perplexity.ai/hub/getting-started ↩
OpenAI developer documentation, “Computer use,” https://developers.openai.com/api/docs/guides/tools-computer-use ↩
OpenAI developer documentation, “Agents,” https://developers.openai.com/api/docs/guides/agents ↩
Salesforce, “Salesforce launches Agentforce 3,” https://www.salesforce.com/ap/news/press-releases/2025/06/24/salesforce-launches-agentforce-3-to-solve-the-biggest-blockers-to-scaling-ai-agents-visibility-and-control/ ↩
ServiceNow, “AI Control Tower,” https://www.servicenow.com/products/ai-control-tower.html ↩
Microsoft Copilot Studio release plan, https://learn.microsoft.com/en-us/power-platform/release-plan/2025wave2/microsoft-copilot-studio/ ↩
Microsoft, “6 core capabilities to scale agent adoption in 2026,” https://www.microsoft.com/en-us/microsoft-copilot/blog/copilot-studio/6-core-capabilities-to-scale-agent-adoption-in-2026/ ↩
Zapier, “AI agents survey,” https://zapier.com/blog/ai-agents-survey/ ↩
Lindy Agents, https://www.lindy.ai/agents ↩
Gumloop, https://www.gumloop.com/ ↩
Dust documentation, “Welcome to Dust,” https://docs.dust.tt/docs/welcome-to-dust ↩
Hebbia product, https://www.hebbia.com/product ↩
LangChain, “LangChain and LangGraph 1.0,” https://www.langchain.com/blog/langchain-langgraph-1dot0 ↩
LangSmith platform, https://www.langchain.com/langsmith-platform ↩ ↩²
LlamaIndex, “Introducing LlamaIndex 0.11,” https://www.llamaindex.ai/blog/introducing-llamaindex-0-11 ↩
Microsoft Research, AutoGen, https://www.microsoft.com/en-us/research/project/autogen/ ↩
CrewAI, “CrewAI OSS 1.0,” https://blog.crewai.com/crewai-oss-1-0-we-are-going-ga/ ↩
OpenAI Agents SDK, https://openai.github.io/openai-agents-python/ ↩
Vercel AI SDK documentation, https://ai-sdk.dev/docs/introduction ↩
Vercel, “Agentic infrastructure,” https://vercel.com/blog/agentic-infrastructure ↩
Mastra, https://mastra.ai/ ↩
PydanticAI documentation, https://pydantic.dev/docs/ai/ ↩
Agno documentation, https://docs.agno.com/introduction ↩
Letta, “Letta v1 agent,” https://www.letta.com/blog/letta-v1-agent ↩
Browserbase for AI, https://www.browserbase.com/industry/ai ↩ ↩²
Browserbase Stagehand, https://www.browserbase.com/stagehand ↩ ↩²
Microsoft Playwright MCP, https://github.com/microsoft/playwright-mcp ↩ ↩²
E2B Enterprise, https://e2b.dev/enterprise ↩ ↩²
Daytona sandboxes, https://www.daytona.io/docs/en/sandboxes/ ↩ ↩²
Temporal AI solutions, https://temporal.io/solutions/ai ↩
Arcade, https://www.arcade.dev/ ↩
Composio, https://composio.dev/ ↩
Langfuse documentation, https://langfuse.com/docs ↩
Helicone, https://www.helicone.ai/ ↩
Temporal, Agentic AI, https://temporal.io/ai/agentic-ai ↩
Anthropic, “Model Context Protocol,” https://www.anthropic.com/news/model-context-protocol ↩
Model Context Protocol, “2026 MCP Roadmap,” https://blog.modelcontextprotocol.io/posts/2026-mcp-roadmap/ ↩
MCPlato, https://mcplato.com/en/ ↩

Leer más

OpenClaw vs Claude Code vs Hermes vs MCPlato: Análisis Profundo de Harnesses de Agentes de IA 2026
Una comparación basada en datos de los cuatro principales Harnesses de Agentes de IA en 2026. Analizamos OpenClaw, Claude Code, Hermes Agent y MCPlato en términos de arquitectura, benchmarks, precios y adecuación real.
Pi, Hermes, Codex, Claude Code y MCPlato: ¿qué Agent encaja con tu trabajo?
Una comparación práctica y basada en escenarios de Pi Agent, Hermes Agent, Codex, Claude Code y MCPlato en control, ajuste al flujo de trabajo, tareas largas y estrategia de permisos.
Harness and Agent: La Arquitectura en Capas de los Sistemas de IA
Explorando la relación entre la capa de herramientas y la capa de agente, y cómo MCPlato implementa una arquitectura nativa MCP
Avance técnica en Agentes IA de larga duración: por qué el framework Harness de Anthropic merece atención
La IA no puede realizar tareas largas no porque no sea lo suficientemente inteligente, sino porque le faltan métodos de trabajo de ingeniería. Un análisis profundo de los cuatro mecanismos clave del framework Harness de Anthropic y cómo MCPlato implementa diseños de ingeniería similares.
Por qué SaaS-Bench muestra que los AI Agents necesitan Harnesses, no solo modelos más grandes
SaaS-Bench prueba computer-use agents en workflows SaaS profesionales reales y expone la brecha entre progreso parcial y finalización verificada. El resultado apunta a agent harnesses, workspace state, verification, permissions y recovery como la próxima capa de producto.