Volver al blog
AI agents
pila de agentes
agent harness
runtime
espacio de trabajo AI
MCPlato

La pila de agentes en H1 de 2026: modelos, harnesses, runtimes y espacios de trabajo AI

Un panorama conciso de H1 de 2026 sobre AI agents, agentes de código, harnesses, runtimes, infraestructura de navegador y sandbox, observabilidad, gobernanza y espacios de trabajo AI, con MCPlato situado en la capa de workspace.

Publicado el 2026-05-29

La carrera de agentes en H1 de 2026 ya no parece una simple tabla de clasificación de modelos.

Los mejores modelos siguen importando. Claude 4, Claude Sonnet 4.5, Claude Opus 4.8, Gemini 2.5 Pro, DeepSeek R1/V3.1, Qwen3-Coder y Mistral Magistral empujaron la capa base en razonamiento, código, contexto y uso de herramientas.12345678 Pero la pregunta competitiva ha cambiado:

¿Quién puede convertir esos modelos en trabajo fiable?

Eso implica harnesses, runtimes, navegadores, sandboxes, evaluaciones, observabilidad, gobernanza, permisos y espacios de trabajo orientados al usuario. El modelo es el motor. El producto de agente es el vehículo. El harness y el workspace deciden si ese vehículo puede funcionar dentro de una empresa real sin perder estado, autoridad o confianza.

La pila de agentes por capas en H1 de 2026

Una forma útil de leer el mercado es verlo como una pila, no como un directorio de logotipos.

Una pila de agentes por capas en H1 de 2026 desde modelos fundacionales hasta espacio de trabajo AIUna pila de agentes por capas en H1 de 2026 desde modelos fundacionales hasta espacio de trabajo AI

Figura 1: La pila de agentes de H1 de 2026 se desplaza hacia arriba desde la capacidad del modelo hacia ejecución, observabilidad, gobernanza y continuidad del workspace.

CapaQué aportaEjemplos representativos
Modelos fundacionalesRazonamiento, código, contexto largo, uso de computadora/herramientas, planificaciónClaude 4 / Sonnet 4.5 / Opus 4.8, Gemini 2.5 Pro, DeepSeek R1/V3.1, Qwen3-Coder, Mistral Magistral
Productos de agenteWorkflows empaquetados para código, investigación, creación de apps, operaciones y procesos empresarialesClaude Code, OpenAI Codex, GitHub Copilot coding agent, Cursor, Devin, Jules, Replit Agent, Lovable, Bolt.new, Manus, Perplexity Labs
Harness / runtimeEstado, reintentos, humano en el bucle, orquestación, memoria, llamadas estructuradas a herramientasLangGraph/LangChain, LlamaIndex, AutoGen, CrewAI, OpenAI Agents SDK, Vercel AI SDK, Mastra, PydanticAI, Agno, Letta
Infraestructura de navegador y sandboxEntornos de ejecución seguros, automatización de navegador, sandboxes de código, aislamiento de tareasBrowserbase, Stagehand, Playwright MCP, E2B, Daytona, Temporal, Arcade, Composio
Observabilidad y evaluacionesTrazas, coste, latencia, pruebas de regresión, depuración de prompts/herramientas, revisión de producciónLangSmith, Langfuse, Helicone, benchmarks de modelos y agentes
Gobernanza empresarialVisibilidad, control de acceso, políticas, inventario de agentes, auditabilidad, workflows de cumplimientoMicrosoft Copilot Studio, Salesforce Agentforce, ServiceNow AI Control Tower, patrones de integración basados en MCP
Espacio de trabajo AIEl lugar orientado al usuario donde persisten el trabajo de múltiples pasos, archivos, sesiones, artefactos y decisionesMCPlato, Dust, Hebbia, plataformas de agentes tipo workspace

Lo importante no es que cada producto deba cubrir cada capa. Es que el trabajo serio con agentes ahora necesita todas ellas en algún punto del sistema.

Clusters de producto, no un directorio bruto

1. Los agentes de código se convirtieron en la primera categoría masiva de agentes

Los agentes de código son la prueba más clara de que los agentes pueden ir más allá del chat. Claude Code quedó disponible de forma general junto con Claude 4 y está documentado como un agentic coding tool para flujos de terminal y desarrollo.19 OpenAI Codex, GitHub Copilot coding agent, Cursor, Devin, Google Jules y Replit Agent apuntan en la misma dirección: los desarrolladores quieren agentes que puedan inspeccionar repositorios, editar archivos, ejecutar comandos, abrir pull requests y continuar el trabajo entre contextos locales y de nube.101112131415

Este cluster va por delante porque el trabajo de software ya tiene buenas barandillas: archivos, diffs, pruebas, logs, ramas, CI y review. La lección para el resto del mercado no es que “todo deba ser código”. Es que los agentes necesitan artefactos revisables y bucles de verificación.

2. Los constructores de apps y los agentes generales convirtieron prompts en workflows

Lovable, Bolt.new, Replit Agent y Manus son ejemplos de productos centrados en producir apps, sitios web o trabajo ejecutable; Perplexity describe Labs como una función de creación para proyectos como informes, dashboards y apps ligeras.16171819 La documentación para desarrolladores de OpenAI describe primitivas de computer-use y construcción de agentes, incluida una superficie visual de herramienta de navegador; por eso su dirección de agentes se entiende mejor como parte del mismo cambio hacia workflows, y no como una simple función de chat.2021

Estos productos comprimen la distancia entre intención y artefacto. Su desafío es el mismo que enfrenta el mercado general de agentes: cuando la tarea se vuelve larga, de múltiples pasos o visible externamente, el producto necesita estado, permisos, rollback y una entrega clara desde el borrador generado hasta el activo de producción.

3. Los agentes empresariales pasan de la adopción al control

Salesforce Agentforce, ServiceNow AI Control Tower y Microsoft Copilot Studio reflejan esta realidad empresarial.22232425 La adopción de agentes ahora depende de visibilidad, política, permisos y propiedad operativa, no solo de calidad de prompt.

Zapier Agents, Lindy, Gumloop, Dust y Hebbia están más cerca de la automatización de workflows y el trabajo de conocimiento para equipos de negocio.2627282930 Importan porque la adopción de agentes no es solo un problema de ingeniería. Los equipos de ventas, finanzas, legal, operaciones, reclutamiento, investigación y soporte también necesitan sistemas de agentes que puedan usar herramientas sin saltarse políticas en silencio.

4. Frameworks y runtimes se convirtieron en la capa intermedia del agente

LangGraph/LangChain, LangSmith, LlamaIndex, AutoGen, CrewAI, OpenAI Agents SDK, Vercel AI SDK, Mastra, PydanticAI, Agno y Letta representan la capa de construcción debajo de los productos empaquetados.313233343536373839404142

En esta capa, el estado duradero, la memoria, el enrutamiento de herramientas, la aprobación humana, las salidas estructuradas y la orquestación multiagente se convierten en primitivas reutilizables. También es donde muchos equipos descubren que “agente” no es una sola abstracción. Un asistente de retrieval, un coding worker, un operador de navegador, un analista financiero y un agente de atención al cliente necesitan contratos de runtime distintos.

5. La infraestructura y la observabilidad se convirtieron en requisitos de producción

Browserbase, Stagehand, Playwright MCP, E2B, Daytona, Temporal, Arcade y Composio no son herramientas periféricas. Son parte del plano de control del agente.4344454647484950

Los agentes necesitan navegadores porque gran parte de la web de trabajo aún carece de APIs limpias. Necesitan sandboxes porque el código y las herramientas deben ejecutarse en entornos aislados. Necesitan motores de workflow duraderos porque las tareas largas fallan y se reanudan. Necesitan pasarelas de integración porque credenciales, permisos y alcances de acción no deben improvisarse dentro de un prompt.

LangSmith, Langfuse y Helicone muestran la misma maduración desde el lado de la observabilidad.325152 Si un agente toca datos de clientes, sistemas de producción o llamadas de modelo costosas, los equipos necesitan trazas, evaluaciones, visibilidad de costes, visibilidad de latencia y comprobaciones de regresión.

Cinco tendencias a observar

1. La diferenciación solo por modelo se desvanece hacia la diferenciación por runtime

Los mejores modelos convergen en buen código, uso de herramientas, contexto largo y planificación. Anthropic informa resultados de codificación de Claude 4 y disponibilidad de Claude Code, mientras Gemini 2.5 Pro enfatiza código y capacidad de contexto largo, DeepSeek V3.1 se presenta como un paso hacia la era de los agentes, y Qwen3-Coder destaca entornos de entrenamiento a gran escala para code agents.1467

Eso hace que el runtime sea más importante, no menos. Cuando varios modelos base pueden razonar lo suficiente, los equipos eligen la pila capaz de preservar estado, llamar herramientas con seguridad, evaluar resultados y mantener a los humanos en control.

2. La observabilidad se está convirtiendo en la puerta de producción

La pregunta “Respondió el modelo?” es demasiado débil para los agentes. Los equipos de producción necesitan saber:

  • ¿Qué herramientas se llamaron?
  • ¿Qué estado cambió?
  • ¿Qué evidencia respalda la finalización?
  • ¿Cuánto costó la ejecución?
  • ¿Dónde apareció la latencia?
  • ¿Qué cambio de prompt, modelo, herramienta o entorno causó una regresión?

Por eso LangSmith, Langfuse, Helicone, suites de benchmarks y centros de comando empresariales se están volviendo parte de la conversación de compra. Una empresa no puede gobernar lo que no puede ver.

3. Los navegadores y sandboxes de código se vuelven infraestructura de primera clase

Los computer-use agents y los agentes de código necesitan superficies operativas seguras. Browserbase y Stagehand se centran en automatización de navegador para AI agents; Playwright MCP expone control del navegador mediante MCP; E2B y Daytona se centran en entornos de ejecución aislados; Temporal presenta ejecución duradera para workflows agentic AI.434445464753

Este es uno de los cambios más importantes de H1 de 2026: el “entorno del agente” se está convirtiendo en una categoría de producto. El entorno es donde la autonomía se vuelve útil o peligrosa.

4. La gobernanza y los protocolos se vuelven expectativas por defecto

MCP es importante porque da al mercado un lenguaje compartido para conectar modelos con herramientas y contexto.5455 Pero los protocolos no eliminan los requisitos de gobernanza. Los hacen más urgentes: una vez que las herramientas son más fáciles de conectar, los equipos necesitan políticas más claras sobre quién puede conectarlas, qué acciones están permitidas, cómo se delimitan las credenciales y cómo se audita la actividad.

Salesforce Agentforce, ServiceNow AI Control Tower y Microsoft Copilot Studio reflejan esta realidad empresarial. La adopción de agentes ahora depende de visibilidad, política, permisos y propiedad operativa, no solo de calidad de prompt.

5. El workspace asíncrono multi-sesión es la capa de usuario que falta

Un único hilo de chat es un mal contenedor para trabajo largo. El trabajo real con agentes suele ramificarse: una sesión investiga, otra redacta, otra prueba, otra revisa, otra espera un seguimiento programado. Los usuarios necesitan un lugar donde esos flujos, archivos, decisiones y artefactos sigan siendo inspeccionables.

Aquí es donde MCPlato encaja de forma natural. MCPlato se entiende mejor como una capa de espacio de trabajo AI: un entorno para materiales locales, múltiples sesiones, trabajo en segundo plano o programado, artefactos y ejecución observable con permisos.56 No debe tratarse como un reemplazo universal de agentes de código, torres de control empresariales o infraestructura de navegador. Su papel es distinto: ayudar a los usuarios a organizar y supervisar trabajo AI que abarca documentos, investigación, contexto de navegador, salidas de oficina y seguimiento asíncrono.

En otras palabras, MCPlato pertenece a la capa workspace de la pila de agentes: cerca del usuario, cerca de los materiales y por encima de los componentes de runtime e infraestructura de nivel inferior que hacen posible la ejecución.

Un marco práctico de decisión

Una matriz de decisión para elegir productos de agente por horizonte de autonomía y necesidades de gobernanzaUna matriz de decisión para elegir productos de agente por horizonte de autonomía y necesidades de gobernanza

Figura 2: Las elecciones de pila de agentes deben basarse en el horizonte de autonomía y la presión de gobernanza, no en un único ranking universal.

Use cinco preguntas antes de elegir una pila de agentes.

PreguntaSi la respuesta es “sí”, priorice
¿El agente modificará código, datos, registros o sistemas externos?Sandbox, permisos, logs de auditoría, puertas de review, rutas de rollback
¿La tarea durará más que un prompt o una sesión?Estado duradero, checkpoints, ejecución en segundo plano, continuidad del workspace
¿El agente usará navegadores o ejecutará código?Infraestructura de automatización de navegador, sandboxes aisladas, límites de credenciales
¿Varios equipos dependerán del resultado?Observabilidad, evaluaciones, seguimiento de costes, política, ownership
¿Los usuarios necesitarán supervisar muchos flujos paralelos?AI workspace, orquestación multi-sesión, artefactos, resúmenes, disciplina de traspaso

Un mapeo simple ayuda:

  • Tarea corta de código: empiece con un agente nativo de código como Claude Code, Codex, Cursor, Jules, Devin, Replit Agent o GitHub Copilot coding agent.
  • Prototipo de app: considere Lovable, Bolt.new, Replit Agent o superficies de builder similares, y luego agregue review antes del uso en producción.
  • Automatización de workflows de negocio: mire Copilot Studio, Agentforce, ServiceNow, Zapier Agents, Lindy, Gumloop, Dust o Hebbia según datos, gobernanza y ajuste de dominio.
  • Producto de agente personalizado: ensamble piezas de runtime e infraestructura como LangGraph, LlamaIndex, CrewAI, OpenAI Agents SDK, Vercel AI SDK, MCP, Browserbase, E2B, Temporal, Composio, Langfuse, Helicone y LangSmith.
  • Trabajo de conocimiento entre materiales: use un patrón de AI workspace, donde MCPlato es un ejemplo relevante, especialmente cuando el trabajo abarca materiales locales, investigación, artefactos, múltiples sesiones y ejecución con permisos.

Conclusión

El panorama de agentes en H1 de 2026 no es una batalla entre “modelos” y “productos”. Es la aparición de una pila completa.

Los modelos proporcionan el sustrato de razonamiento. Los productos de agente empaquetan trabajos comunes. Los harnesses y runtimes mantienen el trabajo con estado. La infraestructura de navegador y sandbox hace más seguro el uso de herramientas. La observabilidad y las evaluaciones hacen inspeccionable la ejecución. La gobernanza hace aceptable la autonomía en organizaciones. Los espacios de trabajo AI dan a los usuarios un lugar para coordinar trabajo de larga duración.

Los ganadores no serán simplemente los equipos con el número de benchmark de modelo más grande. Serán los equipos capaces de convertir la inteligencia del modelo en workflows fiables, revisables y con permisos.

Referencias

Footnotes

  1. Anthropic, “Introducing Claude 4,” https://www.anthropic.com/news/claude-4 2 3

  2. Anthropic, “Claude Sonnet 4.5,” https://www.anthropic.com/news/claude-sonnet-4-5

  3. Anthropic, “Claude Opus 4.8,” https://www.anthropic.com/news/claude-opus-4-8

  4. Google, “Gemini 2.5 Pro coding performance,” https://developers.googleblog.com/en/gemini-2-5-pro-io-improved-coding-performance/ 2

  5. DeepSeek, “DeepSeek-R1 release,” https://api-docs.deepseek.com/news/news250120

  6. DeepSeek, “DeepSeek-V3.1 release,” https://api-docs.deepseek.com/news/news250821 2

  7. Qwen, “Qwen3-Coder,” https://qwenlm.github.io/blog/qwen3-coder/ 2

  8. Mistral AI, “Magistral,” https://mistral.ai/news/magistral

  9. Anthropic, “Claude Code overview,” https://code.claude.com/docs/en/overview

  10. OpenAI Codex developer documentation, https://developers.openai.com/codex

  11. GitHub, “GitHub Copilot coding agent in public preview,” https://github.blog/changelog/2025-05-19-github-copilot-coding-agent-in-public-preview/

  12. Cursor changelog, https://cursor.com/changelog

  13. Cognition, “Devin 2,” https://cognition.ai/blog/devin-2

  14. Google, “Jules now available,” https://blog.google/innovation-and-ai/models-and-research/google-labs/jules-now-available/

  15. Replit, “Introducing Agent 3,” https://replit.com/blog/introducing-agent-3-our-most-autonomous-agent-yet

  16. Lovable, https://lovable.dev/

  17. Bolt.new, https://bolt.new/

  18. Manus, https://manus.im/

  19. Perplexity, “Getting started with Labs,” https://www.perplexity.ai/hub/getting-started

  20. OpenAI developer documentation, “Computer use,” https://developers.openai.com/api/docs/guides/tools-computer-use

  21. OpenAI developer documentation, “Agents,” https://developers.openai.com/api/docs/guides/agents

  22. Salesforce, “Salesforce launches Agentforce 3,” https://www.salesforce.com/ap/news/press-releases/2025/06/24/salesforce-launches-agentforce-3-to-solve-the-biggest-blockers-to-scaling-ai-agents-visibility-and-control/

  23. ServiceNow, “AI Control Tower,” https://www.servicenow.com/products/ai-control-tower.html

  24. Microsoft Copilot Studio release plan, https://learn.microsoft.com/en-us/power-platform/release-plan/2025wave2/microsoft-copilot-studio/

  25. Microsoft, “6 core capabilities to scale agent adoption in 2026,” https://www.microsoft.com/en-us/microsoft-copilot/blog/copilot-studio/6-core-capabilities-to-scale-agent-adoption-in-2026/

  26. Zapier, “AI agents survey,” https://zapier.com/blog/ai-agents-survey/

  27. Lindy Agents, https://www.lindy.ai/agents

  28. Gumloop, https://www.gumloop.com/

  29. Dust documentation, “Welcome to Dust,” https://docs.dust.tt/docs/welcome-to-dust

  30. Hebbia product, https://www.hebbia.com/product

  31. LangChain, “LangChain and LangGraph 1.0,” https://www.langchain.com/blog/langchain-langgraph-1dot0

  32. LangSmith platform, https://www.langchain.com/langsmith-platform 2

  33. LlamaIndex, “Introducing LlamaIndex 0.11,” https://www.llamaindex.ai/blog/introducing-llamaindex-0-11

  34. Microsoft Research, AutoGen, https://www.microsoft.com/en-us/research/project/autogen/

  35. CrewAI, “CrewAI OSS 1.0,” https://blog.crewai.com/crewai-oss-1-0-we-are-going-ga/

  36. OpenAI Agents SDK, https://openai.github.io/openai-agents-python/

  37. Vercel AI SDK documentation, https://ai-sdk.dev/docs/introduction

  38. Vercel, “Agentic infrastructure,” https://vercel.com/blog/agentic-infrastructure

  39. Mastra, https://mastra.ai/

  40. PydanticAI documentation, https://pydantic.dev/docs/ai/

  41. Agno documentation, https://docs.agno.com/introduction

  42. Letta, “Letta v1 agent,” https://www.letta.com/blog/letta-v1-agent

  43. Browserbase for AI, https://www.browserbase.com/industry/ai 2

  44. Browserbase Stagehand, https://www.browserbase.com/stagehand 2

  45. Microsoft Playwright MCP, https://github.com/microsoft/playwright-mcp 2

  46. E2B Enterprise, https://e2b.dev/enterprise 2

  47. Daytona sandboxes, https://www.daytona.io/docs/en/sandboxes/ 2

  48. Temporal AI solutions, https://temporal.io/solutions/ai

  49. Arcade, https://www.arcade.dev/

  50. Composio, https://composio.dev/

  51. Langfuse documentation, https://langfuse.com/docs

  52. Helicone, https://www.helicone.ai/

  53. Temporal, Agentic AI, https://temporal.io/ai/agentic-ai

  54. Anthropic, “Model Context Protocol,” https://www.anthropic.com/news/model-context-protocol

  55. Model Context Protocol, “2026 MCP Roadmap,” https://blog.modelcontextprotocol.io/posts/2026-mcp-roadmap/

  56. MCPlato, https://mcplato.com/en/