Der Agent-Stack im ersten Halbjahr 2026: Modelle, Harnesses, Runtimes und AI Workspaces
Eine knappe Landschaft des ersten Halbjahrs 2026 zu AI Agents, Coding Agents, Harnesses, Runtimes, Browser- und Sandbox-Infrastruktur, Observability, Governance und AI Workspaces — mit MCPlato als Teil der Workspace-Schicht.
Veröffentlicht am 2026-05-29
Das Agent-Rennen im ersten Halbjahr 2026 sieht nicht mehr wie eine einfache Rangliste von Modellen aus.
Bessere Modelle bleiben wichtig. Claude 4, Claude Sonnet 4.5, Claude Opus 4.8, Gemini 2.5 Pro, DeepSeek R1/V3.1, Qwen3-Coder und Mistral Magistral haben die Basisschicht bei Reasoning, Coding, Kontext und Tool-Nutzung weiter vorangebracht.12345678 Doch die Wettbewerbsfrage hat sich verändert:
Wer kann diese Modelle in verlässliche Arbeit bringen?
Das bedeutet Harnesses, Runtimes, Browser, Sandboxes, Evals, Observability, Governance, Berechtigungen und nutzerorientierte Workspaces. Das Modell ist der Motor. Das Agent-Produkt ist das Fahrzeug. Harness und Workspace entscheiden, ob dieses Fahrzeug in einem echten Unternehmen laufen kann, ohne Zustand, Autorität oder Vertrauen zu verlieren.
Der geschichtete Agent-Stack im ersten Halbjahr 2026
Eine hilfreiche Art, den Markt zu lesen, ist ein Stack, nicht ein Verzeichnis von Logos.
Ein geschichteter Agent-Stack des ersten Halbjahrs 2026 von Foundation Models bis AI Workspace
Abbildung 1: Der Agent-Stack des ersten Halbjahrs 2026 bewegt sich von Modellfähigkeiten nach oben in Richtung Ausführung, Observability, Governance und Workspace-Kontinuität.
| Schicht | Beitrag | Repräsentative Beispiele |
|---|---|---|
| Foundation Models | Reasoning, Coding, langer Kontext, Computer-/Tool-Nutzung, Planung | Claude 4 / Sonnet 4.5 / Opus 4.8, Gemini 2.5 Pro, DeepSeek R1/V3.1, Qwen3-Coder, Mistral Magistral |
| Agent-Produkte | Paketierte Workflows für Coding, Recherche, App-Building, Operations und Unternehmensprozesse | Claude Code, OpenAI Codex, GitHub Copilot coding agent, Cursor, Devin, Jules, Replit Agent, Lovable, Bolt.new, Manus, Perplexity Labs |
| Harness / Runtime | Zustand, Wiederholungen, Human-in-the-loop, Orchestrierung, Memory, strukturierte Tool-Aufrufe | LangGraph/LangChain, LlamaIndex, AutoGen, CrewAI, OpenAI Agents SDK, Vercel AI SDK, Mastra, PydanticAI, Agno, Letta |
| Browser- und Sandbox-Infrastruktur | Sichere Ausführungsumgebungen, Browser-Automation, Code-Sandboxes, Task-Isolation | Browserbase, Stagehand, Playwright MCP, E2B, Daytona, Temporal, Arcade, Composio |
| Observability und Evals | Traces, Kosten, Latenz, Regressionstests, Prompt-/Tool-Debugging, Produktionsreview | LangSmith, Langfuse, Helicone, Modell- und Agent-Benchmarks |
| Enterprise Governance | Sichtbarkeit, Zugriffskontrolle, Richtlinien, Agent-Inventar, Auditierbarkeit, Compliance-Workflows | Microsoft Copilot Studio, Salesforce Agentforce, ServiceNow AI Control Tower, MCP-basierte Integrationsmuster |
| AI Workspace | Der nutzerorientierte Ort, an dem mehrstufige Arbeit, Dateien, Sessions, Artefakte und Entscheidungen bestehen bleiben | MCPlato, Dust, Hebbia, Workspace-artige Agent-Plattformen |
Der wichtige Punkt ist nicht, dass jedes Produkt jede Schicht abdecken muss. Entscheidend ist, dass ernsthafte Agent-Arbeit all diese Schichten irgendwo im System braucht.
Produktcluster statt Rohverzeichnis
1. Coding Agents wurden zur ersten Massenmarkt-Kategorie für Agents
Coding Agents sind der klarste Beweis dafür, dass Agents über Chat hinausgehen können. Claude Code wurde zusammen mit Claude 4 allgemein verfügbar und ist als agentic coding tool für Terminal- und Entwicklungsworkflows dokumentiert.19 OpenAI Codex, GitHub Copilot coding agent, Cursor, Devin, Google Jules und Replit Agent zeigen alle in dieselbe Richtung: Entwickler wollen Agents, die Repositories inspizieren, Dateien bearbeiten, Befehle ausführen, Pull Requests öffnen und Arbeit über lokale und Cloud-Kontexte hinweg fortsetzen können.101112131415
Dieser Cluster ist vorn, weil Softwarearbeit bereits nützliche Leitplanken hat: Dateien, Diffs, Tests, Logs, Branches, CI und Review. Die Lektion für den Rest des Marktes lautet nicht: „Alles sollte Coding sein.“ Sie lautet, dass Agents überprüfbare Artefakte und Verifikationsschleifen brauchen.
2. App Builder und allgemeine Agents machten Prompts zu Workflows
Lovable, Bolt.new, Replit Agent und Manus sind Beispiele für Produkte, die auf die Erstellung von Apps, Websites oder ausführbarer Arbeit ausgerichtet sind; Perplexity beschreibt Labs als Erstellungsfunktion für Projekte wie Berichte, Dashboards und leichtgewichtige Apps.16171819 OpenAIs Entwicklerdokumentation beschreibt Computer-use- und Agent-Building-Primitive, einschließlich einer visuellen Browser-Tool-Oberfläche. Daher sollte seine Agent-Richtung eher als Teil derselben Workflow-Verschiebung verstanden werden und nicht als einfache Chat-Funktion.2021
Diese Produkte verkürzen die Distanz zwischen Absicht und Artefakt. Ihre Herausforderung ist dieselbe, vor der der breitere Agent-Markt steht: Sobald eine Aufgabe langlaufend, mehrstufig oder extern sichtbar wird, braucht das Produkt Zustand, Berechtigungen, Rollback und eine klare Übergabe vom generierten Entwurf zum Produktionsasset.
3. Enterprise Agents verschieben sich von Adoption zu Kontrolle
Salesforce Agentforce, ServiceNow AI Control Tower und Microsoft Copilot Studio spiegeln alle diese Enterprise-Realität wider.22232425 Agent-Adoption hängt heute von Sichtbarkeit, Richtlinien, Berechtigungen und operativer Verantwortung ab, nicht nur von Prompt-Qualität.
Zapier Agents, Lindy, Gumloop, Dust und Hebbia liegen näher an Workflow-Automation und Knowledge Work für Business-Teams.2627282930 Sie sind wichtig, weil Agent-Adoption nicht nur ein Engineering-Problem ist. Sales, Finance, Legal, Operations, Recruiting, Research und Support brauchen ebenfalls Agent-Systeme, die Tools nutzen können, ohne Richtlinien stillschweigend zu umgehen.
4. Frameworks und Runtimes wurden zur mittleren Agent-Schicht
LangGraph/LangChain, LangSmith, LlamaIndex, AutoGen, CrewAI, OpenAI Agents SDK, Vercel AI SDK, Mastra, PydanticAI, Agno und Letta repräsentieren die Build-Schicht unterhalb paketierter Produkte.313233343536373839404142
In dieser Schicht werden dauerhafter Zustand, Memory, Tool-Routing, menschliche Genehmigung, strukturierte Outputs und Multi-Agent-Orchestrierung zu wiederverwendbaren Primitiven. Hier entdecken viele Teams auch, dass „Agent“ keine einzelne Abstraktion ist. Ein Retrieval Assistant, ein Coding Worker, ein Browser Operator, ein Finanzanalyst und ein Customer-Service-Agent brauchen unterschiedliche Runtime-Verträge.
5. Infrastruktur und Observability wurden Produktionsanforderungen
Browserbase, Stagehand, Playwright MCP, E2B, Daytona, Temporal, Arcade und Composio sind keine Randwerkzeuge. Sie sind Teil der Agent-Control-Plane.4344454647484950
Agents brauchen Browser, weil ein großer Teil des Arbeits-Webs noch keine sauberen APIs hat. Sie brauchen Sandboxes, weil Code und Tools in isolierten Umgebungen laufen müssen. Sie brauchen dauerhafte Workflow-Engines, weil lange Aufgaben fehlschlagen und fortgesetzt werden. Sie brauchen Integrations-Gateways, weil Credentials, Berechtigungen und Aktionsbereiche nicht innerhalb eines Prompts improvisiert werden sollten.
LangSmith, Langfuse und Helicone zeigen dieselbe Reifung von der Observability-Seite.325152 Wenn ein Agent Kundendaten, Produktionssysteme oder teure Modellaufrufe berührt, brauchen Teams Traces, Evals, Kostentransparenz, Latenztransparenz und Regressionsprüfungen.
Fünf Trends, die man beobachten sollte
1. Reine Modell-Differenzierung verblasst zugunsten von Runtime-Differenzierung
Die besten Modelle konvergieren bei starkem Coding, Tool-Nutzung, langem Kontext und Planung. Anthropic berichtet Claude 4 Coding-Ergebnisse und die Verfügbarkeit von Claude Code, während Gemini 2.5 Pro Coding und Long-Context-Faehigkeit betont, DeepSeek V3.1 sich als Schritt in Richtung Agent-Ära rahmt und Qwen3-Coder große Trainingsumgebungen für Code-Agents hervorhebt.1467
Das macht die Runtime wichtiger, nicht weniger wichtig. Wenn mehrere Basismodelle gut genug schlussfolgern können, wählen Teams den Stack, der Zustand bewahren, Tools sicher aufrufen, Ergebnisse bewerten und Menschen in Kontrolle halten kann.
2. Observability wird zum Produktions-Gate
Die Frage „Hat das Modell geantwortet?“ ist für Agents zu schwach. Produktionsteams müssen wissen:
- Welche Tools wurden aufgerufen?
- Welcher Zustand hat sich geändert?
- Welche Evidenz stützt den Abschluss?
- Wie viel hat der Lauf gekostet?
- Wo trat Latenz auf?
- Welche Prompt-, Modell-, Tool- oder Umgebungsveränderung verursachte eine Regression?
Deshalb werden LangSmith, Langfuse, Helicone, Benchmark-Suites und Enterprise Command Centers Teil der Kaufdiskussion. Ein Unternehmen kann nicht steuern, was es nicht sehen kann.
3. Browser- und Code-Sandboxes werden First-Class-Infrastruktur
Computer-use Agents und Coding Agents brauchen sichere Betriebsflächen. Browserbase und Stagehand konzentrieren sich auf Browser-Automation für AI Agents; Playwright MCP stellt Browser-Steuerung über MCP bereit; E2B und Daytona konzentrieren sich auf isolierte Ausführungsumgebungen; Temporal rahmt dauerhafte Ausführung für agentic AI Workflows.434445464753
Das ist eine der wichtigsten Verschiebungen des ersten Halbjahrs 2026: Die „Agent-Umgebung“ wird zu einer Produktkategorie. In der Umgebung wird Autonomie entweder nützlich oder gefährlich.
4. Governance und Protokolle werden Standarderwartungen
MCP ist wichtig, weil es dem Markt eine gemeinsame Sprache gibt, um Modelle mit Tools und Kontext zu verbinden.5455 Doch Protokolle beseitigen Governance-Anforderungen nicht. Sie machen Governance dringlicher: Sobald Tools leichter verbunden werden können, brauchen Teams klarere Richtlinien dafür, wer sie verbinden darf, welche Aktionen erlaubt sind, wie Credentials abgegrenzt werden und wie Aktivitäten auditiert werden.
Salesforce Agentforce, ServiceNow AI Control Tower und Microsoft Copilot Studio spiegeln alle diese Enterprise-Realität. Agent-Adoption hängt heute von Sichtbarkeit, Richtlinien, Berechtigungen und operativer Verantwortung ab, nicht nur von Prompt-Qualität.
5. Der asynchrone Multi-Session-Workspace ist die fehlende Nutzerschicht
Ein einzelner Chat-Thread ist ein schlechter Container für lange Arbeit. Echte Agent-Arbeit verzweigt sich oft: Eine Session recherchiert, eine andere entwirft, eine andere testet, eine andere reviewed, eine weitere wartet auf ein geplantes Follow-up. Nutzer brauchen einen Ort, an dem diese Arbeitsströme, Dateien, Entscheidungen und Artefakte inspizierbar bleiben.
Hier passt MCPlato natürlich hinein. MCPlato lässt sich am besten als AI-Workspace-Schicht verstehen: eine Umgebung für lokale Materialien, mehrere Sessions, Hintergrund- oder geplante Arbeit, Artefakte und berechtigte, beobachtbare Ausführung.56 Es sollte nicht als universeller Ersatz für Coding Agents, Enterprise Control Towers oder Browser-Infrastruktur behandelt werden. Seine Rolle ist anders: Es hilft Nutzern, AI-Arbeit zu organisieren und zu beaufsichtigen, die sich über Dokumente, Recherche, Browser-Kontext, Office-Outputs und asynchrone Nachverfolgung erstreckt.
Anders gesagt gehört MCPlato zur Workspace-Schicht des Agent-Stacks: nah am Nutzer, nah an den Materialien und oberhalb der tieferen Runtime- und Infrastrukturkomponenten, die Ausführung möglich machen.
Ein praktischer Entscheidungsrahmen
Eine Entscheidungsmatrix zur Auswahl von Agent-Produkten nach Autonomiehorizont und Governance-Bedarf
Abbildung 2: Entscheidungen zum Agent-Stack sollten auf Autonomiehorizont und Governance-Druck beruhen, nicht auf einem einzigen universellen Ranking.
Nutze fünf Fragen, bevor du einen Agent-Stack auswählst.
| Frage | Wenn die Antwort „ja“ lautet, priorisiere |
|---|---|
| Wird der Agent Code, Daten, Datensätze oder externe Systeme verändern? | Sandbox, Berechtigungen, Audit-Logs, Review-Gates, Rollback-Pfade |
| Läuft die Aufgabe länger als ein Prompt oder eine Session? | Dauerhafter Zustand, Checkpoints, Hintergrundausführung, Workspace-Kontinuität |
| Wird der Agent Browser nutzen oder Code ausführen? | Browser-Automation-Infrastruktur, isolierte Sandboxes, Credential-Grenzen |
| Werden mehrere Teams vom Output abhängen? | Observability, Evals, Kostentracking, Richtlinien, Ownership |
| Müssen Nutzer viele parallele Arbeitsströme beaufsichtigen? | AI Workspace, Multi-Session-Orchestrierung, Artefakte, Zusammenfassungen, Übergabedisziplin |
Eine einfache Zuordnung hilft:
- Kurze Coding-Aufgabe: Beginne mit einem coding-nativen Agent wie Claude Code, Codex, Cursor, Jules, Devin, Replit Agent oder GitHub Copilot coding agent.
- App-Prototyp: Ziehe Lovable, Bolt.new, Replit Agent oder ähnliche Builder-Oberflächen in Betracht und füge vor der Produktion Review hinzu.
- Business-Workflow-Automation: Betrachte Copilot Studio, Agentforce, ServiceNow, Zapier Agents, Lindy, Gumloop, Dust oder Hebbia je nach Daten, Governance und Domänenfit.
- Custom Agent Product: Kombiniere Runtime- und Infrastrukturteile wie LangGraph, LlamaIndex, CrewAI, OpenAI Agents SDK, Vercel AI SDK, MCP, Browserbase, E2B, Temporal, Composio, Langfuse, Helicone und LangSmith.
- Wissensarbeit über Materialien hinweg: Nutze ein AI-Workspace-Muster, bei dem MCPlato ein relevantes Beispiel ist, besonders wenn die Arbeit lokale Materialien, Recherche, Artefakte, mehrere Sessions und berechtigte Ausführung umfasst.
Fazit
Die Agent-Landschaft des ersten Halbjahrs 2026 ist kein Kampf zwischen „Modellen“ und „Produkten“. Sie ist die Entstehung eines vollständigen Stacks.
Modelle liefern das Reasoning-Substrat. Agent-Produkte paketieren häufige Aufgaben. Harnesses und Runtimes halten Arbeit zustandsbehaftet. Browser- und Sandbox-Infrastruktur machen Tool-Nutzung sicherer. Observability und Evals machen Ausführung inspizierbar. Governance macht Autonomie in Organisationen akzeptabel. AI Workspaces geben Nutzern einen Ort, um langlaufende Arbeit zu koordinieren.
Die Gewinner werden nicht einfach die Teams mit der größten Modell-Benchmark-Zahl sein. Es werden die Teams sein, die Modellintelligenz in verlässliche, überprüfbare und berechtigte Workflows verwandeln können.
Quellen
Footnotes
-
Anthropic, “Introducing Claude 4,” https://www.anthropic.com/news/claude-4 ↩ ↩2 ↩3
-
Anthropic, “Claude Sonnet 4.5,” https://www.anthropic.com/news/claude-sonnet-4-5 ↩
-
Anthropic, “Claude Opus 4.8,” https://www.anthropic.com/news/claude-opus-4-8 ↩
-
Google, “Gemini 2.5 Pro coding performance,” https://developers.googleblog.com/en/gemini-2-5-pro-io-improved-coding-performance/ ↩ ↩2
-
DeepSeek, “DeepSeek-R1 release,” https://api-docs.deepseek.com/news/news250120 ↩
-
DeepSeek, “DeepSeek-V3.1 release,” https://api-docs.deepseek.com/news/news250821 ↩ ↩2
-
Qwen, “Qwen3-Coder,” https://qwenlm.github.io/blog/qwen3-coder/ ↩ ↩2
-
Mistral AI, “Magistral,” https://mistral.ai/news/magistral ↩
-
Anthropic, “Claude Code overview,” https://code.claude.com/docs/en/overview ↩
-
OpenAI Codex developer documentation, https://developers.openai.com/codex ↩
-
GitHub, “GitHub Copilot coding agent in public preview,” https://github.blog/changelog/2025-05-19-github-copilot-coding-agent-in-public-preview/ ↩
-
Cursor changelog, https://cursor.com/changelog ↩
-
Cognition, “Devin 2,” https://cognition.ai/blog/devin-2 ↩
-
Google, “Jules now available,” https://blog.google/innovation-and-ai/models-and-research/google-labs/jules-now-available/ ↩
-
Replit, “Introducing Agent 3,” https://replit.com/blog/introducing-agent-3-our-most-autonomous-agent-yet ↩
-
Lovable, https://lovable.dev/ ↩
-
Bolt.new, https://bolt.new/ ↩
-
Manus, https://manus.im/ ↩
-
Perplexity, “Getting started with Labs,” https://www.perplexity.ai/hub/getting-started ↩
-
OpenAI developer documentation, “Computer use,” https://developers.openai.com/api/docs/guides/tools-computer-use ↩
-
OpenAI developer documentation, “Agents,” https://developers.openai.com/api/docs/guides/agents ↩
-
Salesforce, “Salesforce launches Agentforce 3,” https://www.salesforce.com/ap/news/press-releases/2025/06/24/salesforce-launches-agentforce-3-to-solve-the-biggest-blockers-to-scaling-ai-agents-visibility-and-control/ ↩
-
ServiceNow, “AI Control Tower,” https://www.servicenow.com/products/ai-control-tower.html ↩
-
Microsoft Copilot Studio release plan, https://learn.microsoft.com/en-us/power-platform/release-plan/2025wave2/microsoft-copilot-studio/ ↩
-
Microsoft, “6 core capabilities to scale agent adoption in 2026,” https://www.microsoft.com/en-us/microsoft-copilot/blog/copilot-studio/6-core-capabilities-to-scale-agent-adoption-in-2026/ ↩
-
Zapier, “AI agents survey,” https://zapier.com/blog/ai-agents-survey/ ↩
-
Lindy Agents, https://www.lindy.ai/agents ↩
-
Gumloop, https://www.gumloop.com/ ↩
-
Dust documentation, “Welcome to Dust,” https://docs.dust.tt/docs/welcome-to-dust ↩
-
Hebbia product, https://www.hebbia.com/product ↩
-
LangChain, “LangChain and LangGraph 1.0,” https://www.langchain.com/blog/langchain-langgraph-1dot0 ↩
-
LangSmith platform, https://www.langchain.com/langsmith-platform ↩ ↩2
-
LlamaIndex, “Introducing LlamaIndex 0.11,” https://www.llamaindex.ai/blog/introducing-llamaindex-0-11 ↩
-
Microsoft Research, AutoGen, https://www.microsoft.com/en-us/research/project/autogen/ ↩
-
CrewAI, “CrewAI OSS 1.0,” https://blog.crewai.com/crewai-oss-1-0-we-are-going-ga/ ↩
-
OpenAI Agents SDK, https://openai.github.io/openai-agents-python/ ↩
-
Vercel AI SDK documentation, https://ai-sdk.dev/docs/introduction ↩
-
Vercel, “Agentic infrastructure,” https://vercel.com/blog/agentic-infrastructure ↩
-
Mastra, https://mastra.ai/ ↩
-
PydanticAI documentation, https://pydantic.dev/docs/ai/ ↩
-
Agno documentation, https://docs.agno.com/introduction ↩
-
Letta, “Letta v1 agent,” https://www.letta.com/blog/letta-v1-agent ↩
-
Browserbase for AI, https://www.browserbase.com/industry/ai ↩ ↩2
-
Browserbase Stagehand, https://www.browserbase.com/stagehand ↩ ↩2
-
Microsoft Playwright MCP, https://github.com/microsoft/playwright-mcp ↩ ↩2
-
E2B Enterprise, https://e2b.dev/enterprise ↩ ↩2
-
Daytona sandboxes, https://www.daytona.io/docs/en/sandboxes/ ↩ ↩2
-
Temporal AI solutions, https://temporal.io/solutions/ai ↩
-
Arcade, https://www.arcade.dev/ ↩
-
Composio, https://composio.dev/ ↩
-
Langfuse documentation, https://langfuse.com/docs ↩
-
Helicone, https://www.helicone.ai/ ↩
-
Temporal, Agentic AI, https://temporal.io/ai/agentic-ai ↩
-
Anthropic, “Model Context Protocol,” https://www.anthropic.com/news/model-context-protocol ↩
-
Model Context Protocol, “2026 MCP Roadmap,” https://blog.modelcontextprotocol.io/posts/2026-mcp-roadmap/ ↩
-
MCPlato, https://mcplato.com/en/ ↩
