La pila de agentes en H1 de 2026: modelos, harnesses, runtimes y espacios de trabajo AI
Un panorama conciso de H1 de 2026 sobre AI agents, agentes de código, harnesses, runtimes, infraestructura de navegador y sandbox, observabilidad, gobernanza y espacios de trabajo AI, con MCPlato situado en la capa de workspace.
Publicado el 2026-05-29
La carrera de agentes en H1 de 2026 ya no parece una simple tabla de clasificación de modelos.
Los mejores modelos siguen importando. Claude 4, Claude Sonnet 4.5, Claude Opus 4.8, Gemini 2.5 Pro, DeepSeek R1/V3.1, Qwen3-Coder y Mistral Magistral empujaron la capa base en razonamiento, código, contexto y uso de herramientas.12345678 Pero la pregunta competitiva ha cambiado:
¿Quién puede convertir esos modelos en trabajo fiable?
Eso implica harnesses, runtimes, navegadores, sandboxes, evaluaciones, observabilidad, gobernanza, permisos y espacios de trabajo orientados al usuario. El modelo es el motor. El producto de agente es el vehículo. El harness y el workspace deciden si ese vehículo puede funcionar dentro de una empresa real sin perder estado, autoridad o confianza.
La pila de agentes por capas en H1 de 2026
Una forma útil de leer el mercado es verlo como una pila, no como un directorio de logotipos.
Una pila de agentes por capas en H1 de 2026 desde modelos fundacionales hasta espacio de trabajo AI
Figura 1: La pila de agentes de H1 de 2026 se desplaza hacia arriba desde la capacidad del modelo hacia ejecución, observabilidad, gobernanza y continuidad del workspace.
| Capa | Qué aporta | Ejemplos representativos |
|---|---|---|
| Modelos fundacionales | Razonamiento, código, contexto largo, uso de computadora/herramientas, planificación | Claude 4 / Sonnet 4.5 / Opus 4.8, Gemini 2.5 Pro, DeepSeek R1/V3.1, Qwen3-Coder, Mistral Magistral |
| Productos de agente | Workflows empaquetados para código, investigación, creación de apps, operaciones y procesos empresariales | Claude Code, OpenAI Codex, GitHub Copilot coding agent, Cursor, Devin, Jules, Replit Agent, Lovable, Bolt.new, Manus, Perplexity Labs |
| Harness / runtime | Estado, reintentos, humano en el bucle, orquestación, memoria, llamadas estructuradas a herramientas | LangGraph/LangChain, LlamaIndex, AutoGen, CrewAI, OpenAI Agents SDK, Vercel AI SDK, Mastra, PydanticAI, Agno, Letta |
| Infraestructura de navegador y sandbox | Entornos de ejecución seguros, automatización de navegador, sandboxes de código, aislamiento de tareas | Browserbase, Stagehand, Playwright MCP, E2B, Daytona, Temporal, Arcade, Composio |
| Observabilidad y evaluaciones | Trazas, coste, latencia, pruebas de regresión, depuración de prompts/herramientas, revisión de producción | LangSmith, Langfuse, Helicone, benchmarks de modelos y agentes |
| Gobernanza empresarial | Visibilidad, control de acceso, políticas, inventario de agentes, auditabilidad, workflows de cumplimiento | Microsoft Copilot Studio, Salesforce Agentforce, ServiceNow AI Control Tower, patrones de integración basados en MCP |
| Espacio de trabajo AI | El lugar orientado al usuario donde persisten el trabajo de múltiples pasos, archivos, sesiones, artefactos y decisiones | MCPlato, Dust, Hebbia, plataformas de agentes tipo workspace |
Lo importante no es que cada producto deba cubrir cada capa. Es que el trabajo serio con agentes ahora necesita todas ellas en algún punto del sistema.
Clusters de producto, no un directorio bruto
1. Los agentes de código se convirtieron en la primera categoría masiva de agentes
Los agentes de código son la prueba más clara de que los agentes pueden ir más allá del chat. Claude Code quedó disponible de forma general junto con Claude 4 y está documentado como un agentic coding tool para flujos de terminal y desarrollo.19 OpenAI Codex, GitHub Copilot coding agent, Cursor, Devin, Google Jules y Replit Agent apuntan en la misma dirección: los desarrolladores quieren agentes que puedan inspeccionar repositorios, editar archivos, ejecutar comandos, abrir pull requests y continuar el trabajo entre contextos locales y de nube.101112131415
Este cluster va por delante porque el trabajo de software ya tiene buenas barandillas: archivos, diffs, pruebas, logs, ramas, CI y review. La lección para el resto del mercado no es que “todo deba ser código”. Es que los agentes necesitan artefactos revisables y bucles de verificación.
2. Los constructores de apps y los agentes generales convirtieron prompts en workflows
Lovable, Bolt.new, Replit Agent y Manus son ejemplos de productos centrados en producir apps, sitios web o trabajo ejecutable; Perplexity describe Labs como una función de creación para proyectos como informes, dashboards y apps ligeras.16171819 La documentación para desarrolladores de OpenAI describe primitivas de computer-use y construcción de agentes, incluida una superficie visual de herramienta de navegador; por eso su dirección de agentes se entiende mejor como parte del mismo cambio hacia workflows, y no como una simple función de chat.2021
Estos productos comprimen la distancia entre intención y artefacto. Su desafío es el mismo que enfrenta el mercado general de agentes: cuando la tarea se vuelve larga, de múltiples pasos o visible externamente, el producto necesita estado, permisos, rollback y una entrega clara desde el borrador generado hasta el activo de producción.
3. Los agentes empresariales pasan de la adopción al control
Salesforce Agentforce, ServiceNow AI Control Tower y Microsoft Copilot Studio reflejan esta realidad empresarial.22232425 La adopción de agentes ahora depende de visibilidad, política, permisos y propiedad operativa, no solo de calidad de prompt.
Zapier Agents, Lindy, Gumloop, Dust y Hebbia están más cerca de la automatización de workflows y el trabajo de conocimiento para equipos de negocio.2627282930 Importan porque la adopción de agentes no es solo un problema de ingeniería. Los equipos de ventas, finanzas, legal, operaciones, reclutamiento, investigación y soporte también necesitan sistemas de agentes que puedan usar herramientas sin saltarse políticas en silencio.
4. Frameworks y runtimes se convirtieron en la capa intermedia del agente
LangGraph/LangChain, LangSmith, LlamaIndex, AutoGen, CrewAI, OpenAI Agents SDK, Vercel AI SDK, Mastra, PydanticAI, Agno y Letta representan la capa de construcción debajo de los productos empaquetados.313233343536373839404142
En esta capa, el estado duradero, la memoria, el enrutamiento de herramientas, la aprobación humana, las salidas estructuradas y la orquestación multiagente se convierten en primitivas reutilizables. También es donde muchos equipos descubren que “agente” no es una sola abstracción. Un asistente de retrieval, un coding worker, un operador de navegador, un analista financiero y un agente de atención al cliente necesitan contratos de runtime distintos.
5. La infraestructura y la observabilidad se convirtieron en requisitos de producción
Browserbase, Stagehand, Playwright MCP, E2B, Daytona, Temporal, Arcade y Composio no son herramientas periféricas. Son parte del plano de control del agente.4344454647484950
Los agentes necesitan navegadores porque gran parte de la web de trabajo aún carece de APIs limpias. Necesitan sandboxes porque el código y las herramientas deben ejecutarse en entornos aislados. Necesitan motores de workflow duraderos porque las tareas largas fallan y se reanudan. Necesitan pasarelas de integración porque credenciales, permisos y alcances de acción no deben improvisarse dentro de un prompt.
LangSmith, Langfuse y Helicone muestran la misma maduración desde el lado de la observabilidad.325152 Si un agente toca datos de clientes, sistemas de producción o llamadas de modelo costosas, los equipos necesitan trazas, evaluaciones, visibilidad de costes, visibilidad de latencia y comprobaciones de regresión.
Cinco tendencias a observar
1. La diferenciación solo por modelo se desvanece hacia la diferenciación por runtime
Los mejores modelos convergen en buen código, uso de herramientas, contexto largo y planificación. Anthropic informa resultados de codificación de Claude 4 y disponibilidad de Claude Code, mientras Gemini 2.5 Pro enfatiza código y capacidad de contexto largo, DeepSeek V3.1 se presenta como un paso hacia la era de los agentes, y Qwen3-Coder destaca entornos de entrenamiento a gran escala para code agents.1467
Eso hace que el runtime sea más importante, no menos. Cuando varios modelos base pueden razonar lo suficiente, los equipos eligen la pila capaz de preservar estado, llamar herramientas con seguridad, evaluar resultados y mantener a los humanos en control.
2. La observabilidad se está convirtiendo en la puerta de producción
La pregunta “Respondió el modelo?” es demasiado débil para los agentes. Los equipos de producción necesitan saber:
- ¿Qué herramientas se llamaron?
- ¿Qué estado cambió?
- ¿Qué evidencia respalda la finalización?
- ¿Cuánto costó la ejecución?
- ¿Dónde apareció la latencia?
- ¿Qué cambio de prompt, modelo, herramienta o entorno causó una regresión?
Por eso LangSmith, Langfuse, Helicone, suites de benchmarks y centros de comando empresariales se están volviendo parte de la conversación de compra. Una empresa no puede gobernar lo que no puede ver.
3. Los navegadores y sandboxes de código se vuelven infraestructura de primera clase
Los computer-use agents y los agentes de código necesitan superficies operativas seguras. Browserbase y Stagehand se centran en automatización de navegador para AI agents; Playwright MCP expone control del navegador mediante MCP; E2B y Daytona se centran en entornos de ejecución aislados; Temporal presenta ejecución duradera para workflows agentic AI.434445464753
Este es uno de los cambios más importantes de H1 de 2026: el “entorno del agente” se está convirtiendo en una categoría de producto. El entorno es donde la autonomía se vuelve útil o peligrosa.
4. La gobernanza y los protocolos se vuelven expectativas por defecto
MCP es importante porque da al mercado un lenguaje compartido para conectar modelos con herramientas y contexto.5455 Pero los protocolos no eliminan los requisitos de gobernanza. Los hacen más urgentes: una vez que las herramientas son más fáciles de conectar, los equipos necesitan políticas más claras sobre quién puede conectarlas, qué acciones están permitidas, cómo se delimitan las credenciales y cómo se audita la actividad.
Salesforce Agentforce, ServiceNow AI Control Tower y Microsoft Copilot Studio reflejan esta realidad empresarial. La adopción de agentes ahora depende de visibilidad, política, permisos y propiedad operativa, no solo de calidad de prompt.
5. El workspace asíncrono multi-sesión es la capa de usuario que falta
Un único hilo de chat es un mal contenedor para trabajo largo. El trabajo real con agentes suele ramificarse: una sesión investiga, otra redacta, otra prueba, otra revisa, otra espera un seguimiento programado. Los usuarios necesitan un lugar donde esos flujos, archivos, decisiones y artefactos sigan siendo inspeccionables.
Aquí es donde MCPlato encaja de forma natural. MCPlato se entiende mejor como una capa de espacio de trabajo AI: un entorno para materiales locales, múltiples sesiones, trabajo en segundo plano o programado, artefactos y ejecución observable con permisos.56 No debe tratarse como un reemplazo universal de agentes de código, torres de control empresariales o infraestructura de navegador. Su papel es distinto: ayudar a los usuarios a organizar y supervisar trabajo AI que abarca documentos, investigación, contexto de navegador, salidas de oficina y seguimiento asíncrono.
En otras palabras, MCPlato pertenece a la capa workspace de la pila de agentes: cerca del usuario, cerca de los materiales y por encima de los componentes de runtime e infraestructura de nivel inferior que hacen posible la ejecución.
Un marco práctico de decisión
Una matriz de decisión para elegir productos de agente por horizonte de autonomía y necesidades de gobernanza
Figura 2: Las elecciones de pila de agentes deben basarse en el horizonte de autonomía y la presión de gobernanza, no en un único ranking universal.
Use cinco preguntas antes de elegir una pila de agentes.
| Pregunta | Si la respuesta es “sí”, priorice |
|---|---|
| ¿El agente modificará código, datos, registros o sistemas externos? | Sandbox, permisos, logs de auditoría, puertas de review, rutas de rollback |
| ¿La tarea durará más que un prompt o una sesión? | Estado duradero, checkpoints, ejecución en segundo plano, continuidad del workspace |
| ¿El agente usará navegadores o ejecutará código? | Infraestructura de automatización de navegador, sandboxes aisladas, límites de credenciales |
| ¿Varios equipos dependerán del resultado? | Observabilidad, evaluaciones, seguimiento de costes, política, ownership |
| ¿Los usuarios necesitarán supervisar muchos flujos paralelos? | AI workspace, orquestación multi-sesión, artefactos, resúmenes, disciplina de traspaso |
Un mapeo simple ayuda:
- Tarea corta de código: empiece con un agente nativo de código como Claude Code, Codex, Cursor, Jules, Devin, Replit Agent o GitHub Copilot coding agent.
- Prototipo de app: considere Lovable, Bolt.new, Replit Agent o superficies de builder similares, y luego agregue review antes del uso en producción.
- Automatización de workflows de negocio: mire Copilot Studio, Agentforce, ServiceNow, Zapier Agents, Lindy, Gumloop, Dust o Hebbia según datos, gobernanza y ajuste de dominio.
- Producto de agente personalizado: ensamble piezas de runtime e infraestructura como LangGraph, LlamaIndex, CrewAI, OpenAI Agents SDK, Vercel AI SDK, MCP, Browserbase, E2B, Temporal, Composio, Langfuse, Helicone y LangSmith.
- Trabajo de conocimiento entre materiales: use un patrón de AI workspace, donde MCPlato es un ejemplo relevante, especialmente cuando el trabajo abarca materiales locales, investigación, artefactos, múltiples sesiones y ejecución con permisos.
Conclusión
El panorama de agentes en H1 de 2026 no es una batalla entre “modelos” y “productos”. Es la aparición de una pila completa.
Los modelos proporcionan el sustrato de razonamiento. Los productos de agente empaquetan trabajos comunes. Los harnesses y runtimes mantienen el trabajo con estado. La infraestructura de navegador y sandbox hace más seguro el uso de herramientas. La observabilidad y las evaluaciones hacen inspeccionable la ejecución. La gobernanza hace aceptable la autonomía en organizaciones. Los espacios de trabajo AI dan a los usuarios un lugar para coordinar trabajo de larga duración.
Los ganadores no serán simplemente los equipos con el número de benchmark de modelo más grande. Serán los equipos capaces de convertir la inteligencia del modelo en workflows fiables, revisables y con permisos.
Referencias
Footnotes
-
Anthropic, “Introducing Claude 4,” https://www.anthropic.com/news/claude-4 ↩ ↩2 ↩3
-
Anthropic, “Claude Sonnet 4.5,” https://www.anthropic.com/news/claude-sonnet-4-5 ↩
-
Anthropic, “Claude Opus 4.8,” https://www.anthropic.com/news/claude-opus-4-8 ↩
-
Google, “Gemini 2.5 Pro coding performance,” https://developers.googleblog.com/en/gemini-2-5-pro-io-improved-coding-performance/ ↩ ↩2
-
DeepSeek, “DeepSeek-R1 release,” https://api-docs.deepseek.com/news/news250120 ↩
-
DeepSeek, “DeepSeek-V3.1 release,” https://api-docs.deepseek.com/news/news250821 ↩ ↩2
-
Qwen, “Qwen3-Coder,” https://qwenlm.github.io/blog/qwen3-coder/ ↩ ↩2
-
Mistral AI, “Magistral,” https://mistral.ai/news/magistral ↩
-
Anthropic, “Claude Code overview,” https://code.claude.com/docs/en/overview ↩
-
OpenAI Codex developer documentation, https://developers.openai.com/codex ↩
-
GitHub, “GitHub Copilot coding agent in public preview,” https://github.blog/changelog/2025-05-19-github-copilot-coding-agent-in-public-preview/ ↩
-
Cursor changelog, https://cursor.com/changelog ↩
-
Cognition, “Devin 2,” https://cognition.ai/blog/devin-2 ↩
-
Google, “Jules now available,” https://blog.google/innovation-and-ai/models-and-research/google-labs/jules-now-available/ ↩
-
Replit, “Introducing Agent 3,” https://replit.com/blog/introducing-agent-3-our-most-autonomous-agent-yet ↩
-
Lovable, https://lovable.dev/ ↩
-
Bolt.new, https://bolt.new/ ↩
-
Manus, https://manus.im/ ↩
-
Perplexity, “Getting started with Labs,” https://www.perplexity.ai/hub/getting-started ↩
-
OpenAI developer documentation, “Computer use,” https://developers.openai.com/api/docs/guides/tools-computer-use ↩
-
OpenAI developer documentation, “Agents,” https://developers.openai.com/api/docs/guides/agents ↩
-
Salesforce, “Salesforce launches Agentforce 3,” https://www.salesforce.com/ap/news/press-releases/2025/06/24/salesforce-launches-agentforce-3-to-solve-the-biggest-blockers-to-scaling-ai-agents-visibility-and-control/ ↩
-
ServiceNow, “AI Control Tower,” https://www.servicenow.com/products/ai-control-tower.html ↩
-
Microsoft Copilot Studio release plan, https://learn.microsoft.com/en-us/power-platform/release-plan/2025wave2/microsoft-copilot-studio/ ↩
-
Microsoft, “6 core capabilities to scale agent adoption in 2026,” https://www.microsoft.com/en-us/microsoft-copilot/blog/copilot-studio/6-core-capabilities-to-scale-agent-adoption-in-2026/ ↩
-
Zapier, “AI agents survey,” https://zapier.com/blog/ai-agents-survey/ ↩
-
Lindy Agents, https://www.lindy.ai/agents ↩
-
Gumloop, https://www.gumloop.com/ ↩
-
Dust documentation, “Welcome to Dust,” https://docs.dust.tt/docs/welcome-to-dust ↩
-
Hebbia product, https://www.hebbia.com/product ↩
-
LangChain, “LangChain and LangGraph 1.0,” https://www.langchain.com/blog/langchain-langgraph-1dot0 ↩
-
LangSmith platform, https://www.langchain.com/langsmith-platform ↩ ↩2
-
LlamaIndex, “Introducing LlamaIndex 0.11,” https://www.llamaindex.ai/blog/introducing-llamaindex-0-11 ↩
-
Microsoft Research, AutoGen, https://www.microsoft.com/en-us/research/project/autogen/ ↩
-
CrewAI, “CrewAI OSS 1.0,” https://blog.crewai.com/crewai-oss-1-0-we-are-going-ga/ ↩
-
OpenAI Agents SDK, https://openai.github.io/openai-agents-python/ ↩
-
Vercel AI SDK documentation, https://ai-sdk.dev/docs/introduction ↩
-
Vercel, “Agentic infrastructure,” https://vercel.com/blog/agentic-infrastructure ↩
-
Mastra, https://mastra.ai/ ↩
-
PydanticAI documentation, https://pydantic.dev/docs/ai/ ↩
-
Agno documentation, https://docs.agno.com/introduction ↩
-
Letta, “Letta v1 agent,” https://www.letta.com/blog/letta-v1-agent ↩
-
Browserbase for AI, https://www.browserbase.com/industry/ai ↩ ↩2
-
Browserbase Stagehand, https://www.browserbase.com/stagehand ↩ ↩2
-
Microsoft Playwright MCP, https://github.com/microsoft/playwright-mcp ↩ ↩2
-
E2B Enterprise, https://e2b.dev/enterprise ↩ ↩2
-
Daytona sandboxes, https://www.daytona.io/docs/en/sandboxes/ ↩ ↩2
-
Temporal AI solutions, https://temporal.io/solutions/ai ↩
-
Arcade, https://www.arcade.dev/ ↩
-
Composio, https://composio.dev/ ↩
-
Langfuse documentation, https://langfuse.com/docs ↩
-
Helicone, https://www.helicone.ai/ ↩
-
Temporal, Agentic AI, https://temporal.io/ai/agentic-ai ↩
-
Anthropic, “Model Context Protocol,” https://www.anthropic.com/news/model-context-protocol ↩
-
Model Context Protocol, “2026 MCP Roadmap,” https://blog.modelcontextprotocol.io/posts/2026-mcp-roadmap/ ↩
-
MCPlato, https://mcplato.com/en/ ↩
