AI agents

pilha de agentes

agent harness

runtime

workspace AI

MCPlato

A pilha de agentes no H1 de 2026: modelos, harnesses, runtimes e workspaces AI

Um panorama conciso do H1 de 2026 sobre AI agents, agentes de código, harnesses, runtimes, infraestrutura de navegador e sandbox, observabilidade, governança e workspaces AI, com MCPlato posicionado como parte da camada de workspace.

MCPlato Research TeamPublicado em 2026-05-29

A corrida de agentes no H1 de 2026 já não parece uma simples tabela de classificação de modelos.

Modelos melhores ainda importam. Claude 4, Claude Sonnet 4.5, Claude Opus 4.8, Gemini 2.5 Pro, DeepSeek R1/V3.1, Qwen3-Coder e Mistral Magistral empurraram a camada base para frente em raciocínio, código, contexto e uso de ferramentas.¹²³⁴⁵⁶⁷⁸ Mas a pergunta competitiva mudou:

Quem consegue colocar esses modelos em trabalho confiável?

Isso significa harnesses, runtimes, navegadores, sandboxes, avaliações, observabilidade, governança, permissões e workspaces voltados ao usuário. O modelo é o motor. O produto de agente é o veículo. O harness e o workspace decidem se esse veículo pode rodar dentro de uma empresa real sem perder estado, autoridade ou confiança.

A pilha de agentes em camadas no H1 de 2026

Uma forma útil de ler o mercado é como uma pilha, não como um diretório de logos.

Uma pilha de agentes em camadas no H1 de 2026, dos modelos fundacionais ao workspace AI

Figura 1: A pilha de agentes do H1 de 2026 está subindo da capacidade do modelo para execução, observabilidade, governança e continuidade do workspace.

Camada	O que ela contribui	Exemplos representativos
Modelos fundacionais	Raciocínio, código, contexto longo, uso de computador/ferramentas, planejamento	Claude 4 / Sonnet 4.5 / Opus 4.8, Gemini 2.5 Pro, DeepSeek R1/V3.1, Qwen3-Coder, Mistral Magistral
Produtos de agente	Workflows empacotados para código, pesquisa, criação de apps, operações e processos empresariais	Claude Code, OpenAI Codex, GitHub Copilot coding agent, Cursor, Devin, Jules, Replit Agent, Lovable, Bolt.new, Manus, Perplexity Labs
Harness / runtime	Estado, tentativas, humano no loop, orquestração, memória, chamadas estruturadas de ferramentas	LangGraph/LangChain, LlamaIndex, AutoGen, CrewAI, OpenAI Agents SDK, Vercel AI SDK, Mastra, PydanticAI, Agno, Letta
Infraestrutura de navegador e sandbox	Ambientes de execução seguros, automação de navegador, sandboxes de código, isolamento de tarefas	Browserbase, Stagehand, Playwright MCP, E2B, Daytona, Temporal, Arcade, Composio
Observabilidade e avaliações	Traces, custo, latência, testes de regressão, depuração de prompts/ferramentas, revisão de produção	LangSmith, Langfuse, Helicone, benchmarks de modelos e agentes
Governança empresarial	Visibilidade, controle de acesso, política, inventário de agentes, auditabilidade, workflows de conformidade	Microsoft Copilot Studio, Salesforce Agentforce, ServiceNow AI Control Tower, padrões de integração baseados em MCP
Workspace AI	O lugar voltado ao usuário onde trabalho em múltiplas etapas, arquivos, sessões, artefatos e decisões persistem	MCPlato, Dust, Hebbia, plataformas de agentes em estilo workspace

O ponto importante não é que todo produto precise cobrir todas as camadas. É que o trabalho sério com agentes agora precisa de todas elas em algum ponto do sistema.

Clusters de produto, não um diretório bruto

1. Agentes de código se tornaram a primeira categoria massiva de agentes

Agentes de código são a prova mais clara de que agentes podem ir além do chat. Claude Code tornou-se amplamente disponível junto com Claude 4 e é documentado como uma agentic coding tool para workflows de terminal e desenvolvimento.¹⁹ OpenAI Codex, GitHub Copilot coding agent, Cursor, Devin, Google Jules e Replit Agent apontam todos para a mesma direção: desenvolvedores querem agentes capazes de inspecionar repositórios, editar arquivos, executar comandos, abrir pull requests e continuar o trabalho entre contextos locais e de nuvem.¹⁰¹¹¹²¹³¹⁴¹⁵

Esse cluster está à frente porque o trabalho de software já tem bons guardrails: arquivos, diffs, testes, logs, branches, CI e review. A lição para o resto do mercado não é que “tudo deveria ser código”. É que agentes precisam de artefatos revisáveis e loops de verificação.

2. App builders e agentes gerais transformaram prompts em workflows

Lovable, Bolt.new, Replit Agent e Manus são exemplos de produtos centrados em produzir apps, sites ou trabalho executável; a Perplexity descreve Labs como um recurso de criação para projetos como relatórios, dashboards e apps leves.¹⁶¹⁷¹⁸¹⁹ A documentação para desenvolvedores da OpenAI descreve primitivas de computer-use e construção de agentes, incluindo uma superfície visual de ferramenta de navegador; por isso sua direção de agentes deve ser tratada como parte da mesma mudança de workflow, e não como uma simples função de chat.²⁰²¹

Esses produtos comprimem a distância entre intenção e artefato. Seu desafio é o mesmo que enfrenta o mercado mais amplo de agentes: quando a tarefa se torna longa, multi-etapa ou visível externamente, o produto precisa de estado, permissões, rollback e uma passagem clara do rascunho gerado para o ativo de produção.

3. Agentes empresariais estão mudando de adoção para controle

Salesforce Agentforce, ServiceNow AI Control Tower e Microsoft Copilot Studio refletem essa realidade empresarial.²²²³²⁴²⁵ A adoção de agentes agora depende de visibilidade, política, permissões e ownership operacional, não apenas da qualidade do prompt.

Zapier Agents, Lindy, Gumloop, Dust e Hebbia ficam mais próximos da automação de workflows e do trabalho de conhecimento para equipes de negócio.²⁶²⁷²⁸²⁹³⁰ Eles importam porque a adoção de agentes não é apenas um problema de engenharia. Equipes de vendas, finanças, jurídico, operações, recrutamento, pesquisa e suporte também precisam de sistemas de agentes que possam usar ferramentas sem contornar políticas silenciosamente.

4. Frameworks e runtimes viraram a camada intermediária dos agentes

LangGraph/LangChain, LangSmith, LlamaIndex, AutoGen, CrewAI, OpenAI Agents SDK, Vercel AI SDK, Mastra, PydanticAI, Agno e Letta representam a camada de construção abaixo dos produtos empacotados.³¹³²³³³⁴³⁵³⁶³⁷³⁸³⁹⁴⁰⁴¹⁴²

Nessa camada, estado durável, memória, roteamento de ferramentas, aprovação humana, saídas estruturadas e orquestração multiagente tornam-se primitivas reutilizáveis. Também é onde muitas equipes descobrem que “agente” não é uma abstração única. Um assistente de retrieval, um coding worker, um operador de navegador, um analista financeiro e um agente de atendimento ao cliente precisam de contratos de runtime diferentes.

5. Infraestrutura e observabilidade viraram requisitos de produção

Browserbase, Stagehand, Playwright MCP, E2B, Daytona, Temporal, Arcade e Composio não são ferramentas periféricas. Elas fazem parte do plano de controle do agente.⁴³⁴⁴⁴⁵⁴⁶⁴⁷⁴⁸⁴⁹⁵⁰

Agentes precisam de navegadores porque grande parte da web de trabalho ainda não tem APIs limpas. Precisam de sandboxes porque código e ferramentas devem rodar em ambientes isolados. Precisam de motores de workflow duráveis porque tarefas longas falham e retomam. Precisam de gateways de integração porque credenciais, permissões e escopos de ação não devem ser improvisados dentro de um prompt.

LangSmith, Langfuse e Helicone mostram a mesma maturação pelo lado da observabilidade.³²⁵¹⁵² Se um agente toca dados de clientes, sistemas de produção ou chamadas de modelo caras, as equipes precisam de traces, avaliações, visibilidade de custo, visibilidade de latência e verificações de regressão.

Cinco tendências para observar

1. Diferenciação apenas por modelo está cedendo lugar a diferenciação por runtime

Os melhores modelos estão convergindo para bom código, uso de ferramentas, contexto longo e planejamento. Anthropic relata resultados de código de Claude 4 e disponibilidade de Claude Code, enquanto Gemini 2.5 Pro enfatiza código e capacidade de contexto longo, DeepSeek V3.1 se apresenta como um passo rumo à era dos agentes, e Qwen3-Coder destaca ambientes de treinamento em larga escala para code agents.¹⁴⁶⁷

Isso torna o runtime mais importante, não menos. Quando vários modelos base conseguem raciocinar bem o suficiente, as equipes escolhem a pilha que consegue preservar estado, chamar ferramentas com segurança, avaliar resultados e manter humanos no controle.

2. Observabilidade está virando o portão de produção

A pergunta “O modelo respondeu?” é fraca demais para agentes. Equipes de produção precisam saber:

Quais ferramentas foram chamadas?
Que estado mudou?
Que evidência sustenta a conclusão?
Quanto custou a execução?
Onde apareceu a latência?
Que mudança de prompt, modelo, ferramenta ou ambiente causou uma regressão?

É por isso que LangSmith, Langfuse, Helicone, suites de benchmarks e command centers empresariais estão entrando na discussão de compra. Uma empresa não consegue governar o que não consegue ver.

3. Navegadores e sandboxes de código estão virando infraestrutura de primeira classe

Computer-use agents e agentes de código precisam de superfícies operacionais seguras. Browserbase e Stagehand focam em automação de navegador para AI agents; Playwright MCP expõe controle de navegador via MCP; E2B e Daytona focam em ambientes de execução isolados; Temporal enquadra execução durável para workflows agentic AI.⁴³⁴⁴⁴⁵⁴⁶⁴⁷⁵³

Essa é uma das mudanças mais importantes do H1 de 2026: o “ambiente do agente” está virando uma categoria de produto. O ambiente é onde a autonomia se torna útil ou perigosa.

4. Governança e protocolos estão virando expectativas padrão

MCP é importante porque dá ao mercado uma linguagem compartilhada para conectar modelos a ferramentas e contexto.⁵⁴⁵⁵ Mas protocolos não eliminam requisitos de governança. Eles tornam a governança mais urgente: quando ferramentas ficam mais fáceis de conectar, as equipes precisam de políticas mais claras sobre quem pode conectá-las, quais ações são permitidas, como credenciais são delimitadas e como a atividade é auditada.

Salesforce Agentforce, ServiceNow AI Control Tower e Microsoft Copilot Studio refletem essa realidade empresarial. A adoção de agentes agora depende de visibilidade, política, permissões e ownership operacional, não apenas da qualidade do prompt.

5. O workspace assíncrono multi-sessão é a camada de usuário que falta

Um único fio de chat é um recipiente ruim para trabalho longo. O trabalho real com agentes frequentemente se ramifica: uma sessão pesquisa, outra redige, outra testa, outra revisa, outra espera um acompanhamento agendado. Usuários precisam de um lugar onde esses fluxos, arquivos, decisões e artefatos continuem inspecionáveis.

É aqui que MCPlato se encaixa naturalmente. MCPlato é melhor entendido como uma camada de workspace AI: um ambiente para materiais locais, múltiplas sessões, trabalho em segundo plano ou agendado, artefatos e execução permissionada e observável.⁵⁶ Ele não deve ser tratado como substituto universal para agentes de código, torres de controle empresariais ou infraestrutura de navegador. Seu papel é diferente: ajudar usuários a organizar e supervisionar trabalho AI que atravessa documentos, pesquisa, contexto de navegador, saídas de escritório e acompanhamento assíncrono.

Em outras palavras, MCPlato pertence à camada de workspace da pilha de agentes: perto do usuário, perto dos materiais e acima dos componentes de runtime e infraestrutura de nível mais baixo que tornam a execução possível.

Um framework prático de decisão

Uma matriz de decisão para escolher produtos de agente por horizonte de autonomia e necessidades de governança

Figura 2: Escolhas de pilha de agentes devem se basear no horizonte de autonomia e na pressão de governança, não em um único ranking universal.

Use cinco perguntas antes de escolher uma pilha de agentes.

Pergunta	Se a resposta for “sim”, priorize
O agente vai modificar código, dados, registros ou sistemas externos?	Sandbox, permissões, logs de auditoria, gates de review, caminhos de rollback
A tarefa vai durar mais que um prompt ou uma sessão?	Estado durável, checkpoints, execução em segundo plano, continuidade do workspace
O agente vai usar navegadores ou executar código?	Infraestrutura de automação de navegador, sandboxes isoladas, limites de credenciais
Várias equipes vão depender do resultado?	Observabilidade, avaliações, rastreamento de custo, política, ownership
Usuários precisarão supervisionar muitos fluxos paralelos?	AI workspace, orquestração multi-sessão, artefatos, resumos, disciplina de passagem

Um mapeamento simples ajuda:

Tarefa curta de código: comece com um agente nativo de código como Claude Code, Codex, Cursor, Jules, Devin, Replit Agent ou GitHub Copilot coding agent.
Protótipo de app: considere Lovable, Bolt.new, Replit Agent ou superfícies de builder semelhantes, depois adicione review antes do uso em produção.
Automação de workflow de negócio: veja Copilot Studio, Agentforce, ServiceNow, Zapier Agents, Lindy, Gumloop, Dust ou Hebbia conforme dados, governança e aderência ao domínio.
Produto de agente customizado: monte peças de runtime e infraestrutura como LangGraph, LlamaIndex, CrewAI, OpenAI Agents SDK, Vercel AI SDK, MCP, Browserbase, E2B, Temporal, Composio, Langfuse, Helicone e LangSmith.
Trabalho de conhecimento entre materiais: use um padrão de workspace AI, em que MCPlato é um exemplo relevante, especialmente quando o trabalho envolve materiais locais, pesquisa, artefatos, múltiplas sessões e execução permissionada.

Conclusão

O panorama de agentes no H1 de 2026 não é uma batalha entre “modelos” e “produtos”. É o surgimento de uma pilha completa.

Modelos fornecem o substrato de raciocínio. Produtos de agente empacotam trabalhos comuns. Harnesses e runtimes mantêm o trabalho com estado. Infraestrutura de navegador e sandbox torna o uso de ferramentas mais seguro. Observabilidade e avaliações tornam a execução inspecionável. Governança torna autonomia aceitável nas organizações. Workspaces AI dão aos usuários um lugar para coordenar trabalho de longa duração.

Os vencedores não serão simplesmente as equipes com o maior número em benchmark de modelo. Serão as equipes capazes de transformar inteligência de modelo em workflows confiáveis, revisáveis e permissionados.

Referências

Footnotes

Anthropic, “Introducing Claude 4,” https://www.anthropic.com/news/claude-4 ↩ ↩² ↩³
Anthropic, “Claude Sonnet 4.5,” https://www.anthropic.com/news/claude-sonnet-4-5 ↩
Anthropic, “Claude Opus 4.8,” https://www.anthropic.com/news/claude-opus-4-8 ↩
Google, “Gemini 2.5 Pro coding performance,” https://developers.googleblog.com/en/gemini-2-5-pro-io-improved-coding-performance/ ↩ ↩²
DeepSeek, “DeepSeek-R1 release,” https://api-docs.deepseek.com/news/news250120 ↩
DeepSeek, “DeepSeek-V3.1 release,” https://api-docs.deepseek.com/news/news250821 ↩ ↩²
Qwen, “Qwen3-Coder,” https://qwenlm.github.io/blog/qwen3-coder/ ↩ ↩²
Mistral AI, “Magistral,” https://mistral.ai/news/magistral ↩
Anthropic, “Claude Code overview,” https://code.claude.com/docs/en/overview ↩
OpenAI Codex developer documentation, https://developers.openai.com/codex ↩
GitHub, “GitHub Copilot coding agent in public preview,” https://github.blog/changelog/2025-05-19-github-copilot-coding-agent-in-public-preview/ ↩
Cursor changelog, https://cursor.com/changelog ↩
Cognition, “Devin 2,” https://cognition.ai/blog/devin-2 ↩
Google, “Jules now available,” https://blog.google/innovation-and-ai/models-and-research/google-labs/jules-now-available/ ↩
Replit, “Introducing Agent 3,” https://replit.com/blog/introducing-agent-3-our-most-autonomous-agent-yet ↩
Lovable, https://lovable.dev/ ↩
Bolt.new, https://bolt.new/ ↩
Manus, https://manus.im/ ↩
Perplexity, “Getting started with Labs,” https://www.perplexity.ai/hub/getting-started ↩
OpenAI developer documentation, “Computer use,” https://developers.openai.com/api/docs/guides/tools-computer-use ↩
OpenAI developer documentation, “Agents,” https://developers.openai.com/api/docs/guides/agents ↩
Salesforce, “Salesforce launches Agentforce 3,” https://www.salesforce.com/ap/news/press-releases/2025/06/24/salesforce-launches-agentforce-3-to-solve-the-biggest-blockers-to-scaling-ai-agents-visibility-and-control/ ↩
ServiceNow, “AI Control Tower,” https://www.servicenow.com/products/ai-control-tower.html ↩
Microsoft Copilot Studio release plan, https://learn.microsoft.com/en-us/power-platform/release-plan/2025wave2/microsoft-copilot-studio/ ↩
Microsoft, “6 core capabilities to scale agent adoption in 2026,” https://www.microsoft.com/en-us/microsoft-copilot/blog/copilot-studio/6-core-capabilities-to-scale-agent-adoption-in-2026/ ↩
Zapier, “AI agents survey,” https://zapier.com/blog/ai-agents-survey/ ↩
Lindy Agents, https://www.lindy.ai/agents ↩
Gumloop, https://www.gumloop.com/ ↩
Dust documentation, “Welcome to Dust,” https://docs.dust.tt/docs/welcome-to-dust ↩
Hebbia product, https://www.hebbia.com/product ↩
LangChain, “LangChain and LangGraph 1.0,” https://www.langchain.com/blog/langchain-langgraph-1dot0 ↩
LangSmith platform, https://www.langchain.com/langsmith-platform ↩ ↩²
LlamaIndex, “Introducing LlamaIndex 0.11,” https://www.llamaindex.ai/blog/introducing-llamaindex-0-11 ↩
Microsoft Research, AutoGen, https://www.microsoft.com/en-us/research/project/autogen/ ↩
CrewAI, “CrewAI OSS 1.0,” https://blog.crewai.com/crewai-oss-1-0-we-are-going-ga/ ↩
OpenAI Agents SDK, https://openai.github.io/openai-agents-python/ ↩
Vercel AI SDK documentation, https://ai-sdk.dev/docs/introduction ↩
Vercel, “Agentic infrastructure,” https://vercel.com/blog/agentic-infrastructure ↩
Mastra, https://mastra.ai/ ↩
PydanticAI documentation, https://pydantic.dev/docs/ai/ ↩
Agno documentation, https://docs.agno.com/introduction ↩
Letta, “Letta v1 agent,” https://www.letta.com/blog/letta-v1-agent ↩
Browserbase for AI, https://www.browserbase.com/industry/ai ↩ ↩²
Browserbase Stagehand, https://www.browserbase.com/stagehand ↩ ↩²
Microsoft Playwright MCP, https://github.com/microsoft/playwright-mcp ↩ ↩²
E2B Enterprise, https://e2b.dev/enterprise ↩ ↩²
Daytona sandboxes, https://www.daytona.io/docs/en/sandboxes/ ↩ ↩²
Temporal AI solutions, https://temporal.io/solutions/ai ↩
Arcade, https://www.arcade.dev/ ↩
Composio, https://composio.dev/ ↩
Langfuse documentation, https://langfuse.com/docs ↩
Helicone, https://www.helicone.ai/ ↩
Temporal, Agentic AI, https://temporal.io/ai/agentic-ai ↩
Anthropic, “Model Context Protocol,” https://www.anthropic.com/news/model-context-protocol ↩
Model Context Protocol, “2026 MCP Roadmap,” https://blog.modelcontextprotocol.io/posts/2026-mcp-roadmap/ ↩
MCPlato, https://mcplato.com/en/ ↩

Ler Mais

Pi, Hermes, Codex, Claude Code e MCPlato: qual Agent combina com o seu trabalho?
Uma comparação prática, baseada em cenários, entre Pi Agent, Hermes Agent, Codex, Claude Code e MCPlato em controle, ajuste ao fluxo de trabalho, tarefas longas e estratégia de permissões.
Por que o SaaS-Bench mostra que AI Agents precisam de Harnesses, não apenas de modelos maiores
O SaaS-Bench testa computer-use agents em workflows SaaS profissionais reais e expõe a lacuna entre progresso parcial e conclusão verificada. O resultado aponta para agent harnesses, workspace state, verification, permissions e recovery como a próxima camada de produto.
MCPlato vs Manus: amplitude multiagente na nuvem vs Personal Agent OS local
Uma comparação de junho de 2026 entre Manus e MCPlato: amplitude de agente cloud hospedado e Wide Research versus um Personal Agent Operating System local-first para materiais pessoais, sessões, permissões e artefatos.
Copilot vs Agent Harness: o que a Europa está realmente a comprar em AI empresarial
O mercado europeu de AI empresarial não está apenas a escolher um chat melhor. A stack vencedora na prática combina copilotos de suites, agentes de domínio, opções soberanas e um Workspace Harness com permissões para trabalho observável.
Skywork vs Manus: Qual Agente de IA Combina com seu Trabalho em 2026?
Uma comparação baseada em fontes entre Skywork Super Agents e Manus para entregáveis de escritório, execução autônoma, créditos de preço, supervisão e controle de dados em 2026.