A pilha de agentes no H1 de 2026: modelos, harnesses, runtimes e workspaces AI
Um panorama conciso do H1 de 2026 sobre AI agents, agentes de código, harnesses, runtimes, infraestrutura de navegador e sandbox, observabilidade, governança e workspaces AI, com MCPlato posicionado como parte da camada de workspace.
Publicado em 2026-05-29
A corrida de agentes no H1 de 2026 já não parece uma simples tabela de classificação de modelos.
Modelos melhores ainda importam. Claude 4, Claude Sonnet 4.5, Claude Opus 4.8, Gemini 2.5 Pro, DeepSeek R1/V3.1, Qwen3-Coder e Mistral Magistral empurraram a camada base para frente em raciocínio, código, contexto e uso de ferramentas.12345678 Mas a pergunta competitiva mudou:
Quem consegue colocar esses modelos em trabalho confiável?
Isso significa harnesses, runtimes, navegadores, sandboxes, avaliações, observabilidade, governança, permissões e workspaces voltados ao usuário. O modelo é o motor. O produto de agente é o veículo. O harness e o workspace decidem se esse veículo pode rodar dentro de uma empresa real sem perder estado, autoridade ou confiança.
A pilha de agentes em camadas no H1 de 2026
Uma forma útil de ler o mercado é como uma pilha, não como um diretório de logos.
Uma pilha de agentes em camadas no H1 de 2026, dos modelos fundacionais ao workspace AI
Figura 1: A pilha de agentes do H1 de 2026 está subindo da capacidade do modelo para execução, observabilidade, governança e continuidade do workspace.
| Camada | O que ela contribui | Exemplos representativos |
|---|---|---|
| Modelos fundacionais | Raciocínio, código, contexto longo, uso de computador/ferramentas, planejamento | Claude 4 / Sonnet 4.5 / Opus 4.8, Gemini 2.5 Pro, DeepSeek R1/V3.1, Qwen3-Coder, Mistral Magistral |
| Produtos de agente | Workflows empacotados para código, pesquisa, criação de apps, operações e processos empresariais | Claude Code, OpenAI Codex, GitHub Copilot coding agent, Cursor, Devin, Jules, Replit Agent, Lovable, Bolt.new, Manus, Perplexity Labs |
| Harness / runtime | Estado, tentativas, humano no loop, orquestração, memória, chamadas estruturadas de ferramentas | LangGraph/LangChain, LlamaIndex, AutoGen, CrewAI, OpenAI Agents SDK, Vercel AI SDK, Mastra, PydanticAI, Agno, Letta |
| Infraestrutura de navegador e sandbox | Ambientes de execução seguros, automação de navegador, sandboxes de código, isolamento de tarefas | Browserbase, Stagehand, Playwright MCP, E2B, Daytona, Temporal, Arcade, Composio |
| Observabilidade e avaliações | Traces, custo, latência, testes de regressão, depuração de prompts/ferramentas, revisão de produção | LangSmith, Langfuse, Helicone, benchmarks de modelos e agentes |
| Governança empresarial | Visibilidade, controle de acesso, política, inventário de agentes, auditabilidade, workflows de conformidade | Microsoft Copilot Studio, Salesforce Agentforce, ServiceNow AI Control Tower, padrões de integração baseados em MCP |
| Workspace AI | O lugar voltado ao usuário onde trabalho em múltiplas etapas, arquivos, sessões, artefatos e decisões persistem | MCPlato, Dust, Hebbia, plataformas de agentes em estilo workspace |
O ponto importante não é que todo produto precise cobrir todas as camadas. É que o trabalho sério com agentes agora precisa de todas elas em algum ponto do sistema.
Clusters de produto, não um diretório bruto
1. Agentes de código se tornaram a primeira categoria massiva de agentes
Agentes de código são a prova mais clara de que agentes podem ir além do chat. Claude Code tornou-se amplamente disponível junto com Claude 4 e é documentado como uma agentic coding tool para workflows de terminal e desenvolvimento.19 OpenAI Codex, GitHub Copilot coding agent, Cursor, Devin, Google Jules e Replit Agent apontam todos para a mesma direção: desenvolvedores querem agentes capazes de inspecionar repositórios, editar arquivos, executar comandos, abrir pull requests e continuar o trabalho entre contextos locais e de nuvem.101112131415
Esse cluster está à frente porque o trabalho de software já tem bons guardrails: arquivos, diffs, testes, logs, branches, CI e review. A lição para o resto do mercado não é que “tudo deveria ser código”. É que agentes precisam de artefatos revisáveis e loops de verificação.
2. App builders e agentes gerais transformaram prompts em workflows
Lovable, Bolt.new, Replit Agent e Manus são exemplos de produtos centrados em produzir apps, sites ou trabalho executável; a Perplexity descreve Labs como um recurso de criação para projetos como relatórios, dashboards e apps leves.16171819 A documentação para desenvolvedores da OpenAI descreve primitivas de computer-use e construção de agentes, incluindo uma superfície visual de ferramenta de navegador; por isso sua direção de agentes deve ser tratada como parte da mesma mudança de workflow, e não como uma simples função de chat.2021
Esses produtos comprimem a distância entre intenção e artefato. Seu desafio é o mesmo que enfrenta o mercado mais amplo de agentes: quando a tarefa se torna longa, multi-etapa ou visível externamente, o produto precisa de estado, permissões, rollback e uma passagem clara do rascunho gerado para o ativo de produção.
3. Agentes empresariais estão mudando de adoção para controle
Salesforce Agentforce, ServiceNow AI Control Tower e Microsoft Copilot Studio refletem essa realidade empresarial.22232425 A adoção de agentes agora depende de visibilidade, política, permissões e ownership operacional, não apenas da qualidade do prompt.
Zapier Agents, Lindy, Gumloop, Dust e Hebbia ficam mais próximos da automação de workflows e do trabalho de conhecimento para equipes de negócio.2627282930 Eles importam porque a adoção de agentes não é apenas um problema de engenharia. Equipes de vendas, finanças, jurídico, operações, recrutamento, pesquisa e suporte também precisam de sistemas de agentes que possam usar ferramentas sem contornar políticas silenciosamente.
4. Frameworks e runtimes viraram a camada intermediária dos agentes
LangGraph/LangChain, LangSmith, LlamaIndex, AutoGen, CrewAI, OpenAI Agents SDK, Vercel AI SDK, Mastra, PydanticAI, Agno e Letta representam a camada de construção abaixo dos produtos empacotados.313233343536373839404142
Nessa camada, estado durável, memória, roteamento de ferramentas, aprovação humana, saídas estruturadas e orquestração multiagente tornam-se primitivas reutilizáveis. Também é onde muitas equipes descobrem que “agente” não é uma abstração única. Um assistente de retrieval, um coding worker, um operador de navegador, um analista financeiro e um agente de atendimento ao cliente precisam de contratos de runtime diferentes.
5. Infraestrutura e observabilidade viraram requisitos de produção
Browserbase, Stagehand, Playwright MCP, E2B, Daytona, Temporal, Arcade e Composio não são ferramentas periféricas. Elas fazem parte do plano de controle do agente.4344454647484950
Agentes precisam de navegadores porque grande parte da web de trabalho ainda não tem APIs limpas. Precisam de sandboxes porque código e ferramentas devem rodar em ambientes isolados. Precisam de motores de workflow duráveis porque tarefas longas falham e retomam. Precisam de gateways de integração porque credenciais, permissões e escopos de ação não devem ser improvisados dentro de um prompt.
LangSmith, Langfuse e Helicone mostram a mesma maturação pelo lado da observabilidade.325152 Se um agente toca dados de clientes, sistemas de produção ou chamadas de modelo caras, as equipes precisam de traces, avaliações, visibilidade de custo, visibilidade de latência e verificações de regressão.
Cinco tendências para observar
1. Diferenciação apenas por modelo está cedendo lugar a diferenciação por runtime
Os melhores modelos estão convergindo para bom código, uso de ferramentas, contexto longo e planejamento. Anthropic relata resultados de código de Claude 4 e disponibilidade de Claude Code, enquanto Gemini 2.5 Pro enfatiza código e capacidade de contexto longo, DeepSeek V3.1 se apresenta como um passo rumo à era dos agentes, e Qwen3-Coder destaca ambientes de treinamento em larga escala para code agents.1467
Isso torna o runtime mais importante, não menos. Quando vários modelos base conseguem raciocinar bem o suficiente, as equipes escolhem a pilha que consegue preservar estado, chamar ferramentas com segurança, avaliar resultados e manter humanos no controle.
2. Observabilidade está virando o portão de produção
A pergunta “O modelo respondeu?” é fraca demais para agentes. Equipes de produção precisam saber:
- Quais ferramentas foram chamadas?
- Que estado mudou?
- Que evidência sustenta a conclusão?
- Quanto custou a execução?
- Onde apareceu a latência?
- Que mudança de prompt, modelo, ferramenta ou ambiente causou uma regressão?
É por isso que LangSmith, Langfuse, Helicone, suites de benchmarks e command centers empresariais estão entrando na discussão de compra. Uma empresa não consegue governar o que não consegue ver.
3. Navegadores e sandboxes de código estão virando infraestrutura de primeira classe
Computer-use agents e agentes de código precisam de superfícies operacionais seguras. Browserbase e Stagehand focam em automação de navegador para AI agents; Playwright MCP expõe controle de navegador via MCP; E2B e Daytona focam em ambientes de execução isolados; Temporal enquadra execução durável para workflows agentic AI.434445464753
Essa é uma das mudanças mais importantes do H1 de 2026: o “ambiente do agente” está virando uma categoria de produto. O ambiente é onde a autonomia se torna útil ou perigosa.
4. Governança e protocolos estão virando expectativas padrão
MCP é importante porque dá ao mercado uma linguagem compartilhada para conectar modelos a ferramentas e contexto.5455 Mas protocolos não eliminam requisitos de governança. Eles tornam a governança mais urgente: quando ferramentas ficam mais fáceis de conectar, as equipes precisam de políticas mais claras sobre quem pode conectá-las, quais ações são permitidas, como credenciais são delimitadas e como a atividade é auditada.
Salesforce Agentforce, ServiceNow AI Control Tower e Microsoft Copilot Studio refletem essa realidade empresarial. A adoção de agentes agora depende de visibilidade, política, permissões e ownership operacional, não apenas da qualidade do prompt.
5. O workspace assíncrono multi-sessão é a camada de usuário que falta
Um único fio de chat é um recipiente ruim para trabalho longo. O trabalho real com agentes frequentemente se ramifica: uma sessão pesquisa, outra redige, outra testa, outra revisa, outra espera um acompanhamento agendado. Usuários precisam de um lugar onde esses fluxos, arquivos, decisões e artefatos continuem inspecionáveis.
É aqui que MCPlato se encaixa naturalmente. MCPlato é melhor entendido como uma camada de workspace AI: um ambiente para materiais locais, múltiplas sessões, trabalho em segundo plano ou agendado, artefatos e execução permissionada e observável.56 Ele não deve ser tratado como substituto universal para agentes de código, torres de controle empresariais ou infraestrutura de navegador. Seu papel é diferente: ajudar usuários a organizar e supervisionar trabalho AI que atravessa documentos, pesquisa, contexto de navegador, saídas de escritório e acompanhamento assíncrono.
Em outras palavras, MCPlato pertence à camada de workspace da pilha de agentes: perto do usuário, perto dos materiais e acima dos componentes de runtime e infraestrutura de nível mais baixo que tornam a execução possível.
Um framework prático de decisão
Uma matriz de decisão para escolher produtos de agente por horizonte de autonomia e necessidades de governança
Figura 2: Escolhas de pilha de agentes devem se basear no horizonte de autonomia e na pressão de governança, não em um único ranking universal.
Use cinco perguntas antes de escolher uma pilha de agentes.
| Pergunta | Se a resposta for “sim”, priorize |
|---|---|
| O agente vai modificar código, dados, registros ou sistemas externos? | Sandbox, permissões, logs de auditoria, gates de review, caminhos de rollback |
| A tarefa vai durar mais que um prompt ou uma sessão? | Estado durável, checkpoints, execução em segundo plano, continuidade do workspace |
| O agente vai usar navegadores ou executar código? | Infraestrutura de automação de navegador, sandboxes isoladas, limites de credenciais |
| Várias equipes vão depender do resultado? | Observabilidade, avaliações, rastreamento de custo, política, ownership |
| Usuários precisarão supervisionar muitos fluxos paralelos? | AI workspace, orquestração multi-sessão, artefatos, resumos, disciplina de passagem |
Um mapeamento simples ajuda:
- Tarefa curta de código: comece com um agente nativo de código como Claude Code, Codex, Cursor, Jules, Devin, Replit Agent ou GitHub Copilot coding agent.
- Protótipo de app: considere Lovable, Bolt.new, Replit Agent ou superfícies de builder semelhantes, depois adicione review antes do uso em produção.
- Automação de workflow de negócio: veja Copilot Studio, Agentforce, ServiceNow, Zapier Agents, Lindy, Gumloop, Dust ou Hebbia conforme dados, governança e aderência ao domínio.
- Produto de agente customizado: monte peças de runtime e infraestrutura como LangGraph, LlamaIndex, CrewAI, OpenAI Agents SDK, Vercel AI SDK, MCP, Browserbase, E2B, Temporal, Composio, Langfuse, Helicone e LangSmith.
- Trabalho de conhecimento entre materiais: use um padrão de workspace AI, em que MCPlato é um exemplo relevante, especialmente quando o trabalho envolve materiais locais, pesquisa, artefatos, múltiplas sessões e execução permissionada.
Conclusão
O panorama de agentes no H1 de 2026 não é uma batalha entre “modelos” e “produtos”. É o surgimento de uma pilha completa.
Modelos fornecem o substrato de raciocínio. Produtos de agente empacotam trabalhos comuns. Harnesses e runtimes mantêm o trabalho com estado. Infraestrutura de navegador e sandbox torna o uso de ferramentas mais seguro. Observabilidade e avaliações tornam a execução inspecionável. Governança torna autonomia aceitável nas organizações. Workspaces AI dão aos usuários um lugar para coordenar trabalho de longa duração.
Os vencedores não serão simplesmente as equipes com o maior número em benchmark de modelo. Serão as equipes capazes de transformar inteligência de modelo em workflows confiáveis, revisáveis e permissionados.
Referências
Footnotes
-
Anthropic, “Introducing Claude 4,” https://www.anthropic.com/news/claude-4 ↩ ↩2 ↩3
-
Anthropic, “Claude Sonnet 4.5,” https://www.anthropic.com/news/claude-sonnet-4-5 ↩
-
Anthropic, “Claude Opus 4.8,” https://www.anthropic.com/news/claude-opus-4-8 ↩
-
Google, “Gemini 2.5 Pro coding performance,” https://developers.googleblog.com/en/gemini-2-5-pro-io-improved-coding-performance/ ↩ ↩2
-
DeepSeek, “DeepSeek-R1 release,” https://api-docs.deepseek.com/news/news250120 ↩
-
DeepSeek, “DeepSeek-V3.1 release,” https://api-docs.deepseek.com/news/news250821 ↩ ↩2
-
Qwen, “Qwen3-Coder,” https://qwenlm.github.io/blog/qwen3-coder/ ↩ ↩2
-
Mistral AI, “Magistral,” https://mistral.ai/news/magistral ↩
-
Anthropic, “Claude Code overview,” https://code.claude.com/docs/en/overview ↩
-
OpenAI Codex developer documentation, https://developers.openai.com/codex ↩
-
GitHub, “GitHub Copilot coding agent in public preview,” https://github.blog/changelog/2025-05-19-github-copilot-coding-agent-in-public-preview/ ↩
-
Cursor changelog, https://cursor.com/changelog ↩
-
Cognition, “Devin 2,” https://cognition.ai/blog/devin-2 ↩
-
Google, “Jules now available,” https://blog.google/innovation-and-ai/models-and-research/google-labs/jules-now-available/ ↩
-
Replit, “Introducing Agent 3,” https://replit.com/blog/introducing-agent-3-our-most-autonomous-agent-yet ↩
-
Lovable, https://lovable.dev/ ↩
-
Bolt.new, https://bolt.new/ ↩
-
Manus, https://manus.im/ ↩
-
Perplexity, “Getting started with Labs,” https://www.perplexity.ai/hub/getting-started ↩
-
OpenAI developer documentation, “Computer use,” https://developers.openai.com/api/docs/guides/tools-computer-use ↩
-
OpenAI developer documentation, “Agents,” https://developers.openai.com/api/docs/guides/agents ↩
-
Salesforce, “Salesforce launches Agentforce 3,” https://www.salesforce.com/ap/news/press-releases/2025/06/24/salesforce-launches-agentforce-3-to-solve-the-biggest-blockers-to-scaling-ai-agents-visibility-and-control/ ↩
-
ServiceNow, “AI Control Tower,” https://www.servicenow.com/products/ai-control-tower.html ↩
-
Microsoft Copilot Studio release plan, https://learn.microsoft.com/en-us/power-platform/release-plan/2025wave2/microsoft-copilot-studio/ ↩
-
Microsoft, “6 core capabilities to scale agent adoption in 2026,” https://www.microsoft.com/en-us/microsoft-copilot/blog/copilot-studio/6-core-capabilities-to-scale-agent-adoption-in-2026/ ↩
-
Zapier, “AI agents survey,” https://zapier.com/blog/ai-agents-survey/ ↩
-
Lindy Agents, https://www.lindy.ai/agents ↩
-
Gumloop, https://www.gumloop.com/ ↩
-
Dust documentation, “Welcome to Dust,” https://docs.dust.tt/docs/welcome-to-dust ↩
-
Hebbia product, https://www.hebbia.com/product ↩
-
LangChain, “LangChain and LangGraph 1.0,” https://www.langchain.com/blog/langchain-langgraph-1dot0 ↩
-
LangSmith platform, https://www.langchain.com/langsmith-platform ↩ ↩2
-
LlamaIndex, “Introducing LlamaIndex 0.11,” https://www.llamaindex.ai/blog/introducing-llamaindex-0-11 ↩
-
Microsoft Research, AutoGen, https://www.microsoft.com/en-us/research/project/autogen/ ↩
-
CrewAI, “CrewAI OSS 1.0,” https://blog.crewai.com/crewai-oss-1-0-we-are-going-ga/ ↩
-
OpenAI Agents SDK, https://openai.github.io/openai-agents-python/ ↩
-
Vercel AI SDK documentation, https://ai-sdk.dev/docs/introduction ↩
-
Vercel, “Agentic infrastructure,” https://vercel.com/blog/agentic-infrastructure ↩
-
Mastra, https://mastra.ai/ ↩
-
PydanticAI documentation, https://pydantic.dev/docs/ai/ ↩
-
Agno documentation, https://docs.agno.com/introduction ↩
-
Letta, “Letta v1 agent,” https://www.letta.com/blog/letta-v1-agent ↩
-
Browserbase for AI, https://www.browserbase.com/industry/ai ↩ ↩2
-
Browserbase Stagehand, https://www.browserbase.com/stagehand ↩ ↩2
-
Microsoft Playwright MCP, https://github.com/microsoft/playwright-mcp ↩ ↩2
-
E2B Enterprise, https://e2b.dev/enterprise ↩ ↩2
-
Daytona sandboxes, https://www.daytona.io/docs/en/sandboxes/ ↩ ↩2
-
Temporal AI solutions, https://temporal.io/solutions/ai ↩
-
Arcade, https://www.arcade.dev/ ↩
-
Composio, https://composio.dev/ ↩
-
Langfuse documentation, https://langfuse.com/docs ↩
-
Helicone, https://www.helicone.ai/ ↩
-
Temporal, Agentic AI, https://temporal.io/ai/agentic-ai ↩
-
Anthropic, “Model Context Protocol,” https://www.anthropic.com/news/model-context-protocol ↩
-
Model Context Protocol, “2026 MCP Roadmap,” https://blog.modelcontextprotocol.io/posts/2026-mcp-roadmap/ ↩
-
MCPlato, https://mcplato.com/en/ ↩
