Zurück zum Blog
AI Agents
Agent Stack
Agent Harness
Runtime
AI Workspace
MCPlato

Der Agent-Stack im ersten Halbjahr 2026: Modelle, Harnesses, Runtimes und AI Workspaces

Eine knappe Landschaft des ersten Halbjahrs 2026 zu AI Agents, Coding Agents, Harnesses, Runtimes, Browser- und Sandbox-Infrastruktur, Observability, Governance und AI Workspaces — mit MCPlato als Teil der Workspace-Schicht.

Veröffentlicht am 2026-05-29

Das Agent-Rennen im ersten Halbjahr 2026 sieht nicht mehr wie eine einfache Rangliste von Modellen aus.

Bessere Modelle bleiben wichtig. Claude 4, Claude Sonnet 4.5, Claude Opus 4.8, Gemini 2.5 Pro, DeepSeek R1/V3.1, Qwen3-Coder und Mistral Magistral haben die Basisschicht bei Reasoning, Coding, Kontext und Tool-Nutzung weiter vorangebracht.12345678 Doch die Wettbewerbsfrage hat sich verändert:

Wer kann diese Modelle in verlässliche Arbeit bringen?

Das bedeutet Harnesses, Runtimes, Browser, Sandboxes, Evals, Observability, Governance, Berechtigungen und nutzerorientierte Workspaces. Das Modell ist der Motor. Das Agent-Produkt ist das Fahrzeug. Harness und Workspace entscheiden, ob dieses Fahrzeug in einem echten Unternehmen laufen kann, ohne Zustand, Autorität oder Vertrauen zu verlieren.

Der geschichtete Agent-Stack im ersten Halbjahr 2026

Eine hilfreiche Art, den Markt zu lesen, ist ein Stack, nicht ein Verzeichnis von Logos.

Ein geschichteter Agent-Stack des ersten Halbjahrs 2026 von Foundation Models bis AI WorkspaceEin geschichteter Agent-Stack des ersten Halbjahrs 2026 von Foundation Models bis AI Workspace

Abbildung 1: Der Agent-Stack des ersten Halbjahrs 2026 bewegt sich von Modellfähigkeiten nach oben in Richtung Ausführung, Observability, Governance und Workspace-Kontinuität.

SchichtBeitragRepräsentative Beispiele
Foundation ModelsReasoning, Coding, langer Kontext, Computer-/Tool-Nutzung, PlanungClaude 4 / Sonnet 4.5 / Opus 4.8, Gemini 2.5 Pro, DeepSeek R1/V3.1, Qwen3-Coder, Mistral Magistral
Agent-ProduktePaketierte Workflows für Coding, Recherche, App-Building, Operations und UnternehmensprozesseClaude Code, OpenAI Codex, GitHub Copilot coding agent, Cursor, Devin, Jules, Replit Agent, Lovable, Bolt.new, Manus, Perplexity Labs
Harness / RuntimeZustand, Wiederholungen, Human-in-the-loop, Orchestrierung, Memory, strukturierte Tool-AufrufeLangGraph/LangChain, LlamaIndex, AutoGen, CrewAI, OpenAI Agents SDK, Vercel AI SDK, Mastra, PydanticAI, Agno, Letta
Browser- und Sandbox-InfrastrukturSichere Ausführungsumgebungen, Browser-Automation, Code-Sandboxes, Task-IsolationBrowserbase, Stagehand, Playwright MCP, E2B, Daytona, Temporal, Arcade, Composio
Observability und EvalsTraces, Kosten, Latenz, Regressionstests, Prompt-/Tool-Debugging, ProduktionsreviewLangSmith, Langfuse, Helicone, Modell- und Agent-Benchmarks
Enterprise GovernanceSichtbarkeit, Zugriffskontrolle, Richtlinien, Agent-Inventar, Auditierbarkeit, Compliance-WorkflowsMicrosoft Copilot Studio, Salesforce Agentforce, ServiceNow AI Control Tower, MCP-basierte Integrationsmuster
AI WorkspaceDer nutzerorientierte Ort, an dem mehrstufige Arbeit, Dateien, Sessions, Artefakte und Entscheidungen bestehen bleibenMCPlato, Dust, Hebbia, Workspace-artige Agent-Plattformen

Der wichtige Punkt ist nicht, dass jedes Produkt jede Schicht abdecken muss. Entscheidend ist, dass ernsthafte Agent-Arbeit all diese Schichten irgendwo im System braucht.

Produktcluster statt Rohverzeichnis

1. Coding Agents wurden zur ersten Massenmarkt-Kategorie für Agents

Coding Agents sind der klarste Beweis dafür, dass Agents über Chat hinausgehen können. Claude Code wurde zusammen mit Claude 4 allgemein verfügbar und ist als agentic coding tool für Terminal- und Entwicklungsworkflows dokumentiert.19 OpenAI Codex, GitHub Copilot coding agent, Cursor, Devin, Google Jules und Replit Agent zeigen alle in dieselbe Richtung: Entwickler wollen Agents, die Repositories inspizieren, Dateien bearbeiten, Befehle ausführen, Pull Requests öffnen und Arbeit über lokale und Cloud-Kontexte hinweg fortsetzen können.101112131415

Dieser Cluster ist vorn, weil Softwarearbeit bereits nützliche Leitplanken hat: Dateien, Diffs, Tests, Logs, Branches, CI und Review. Die Lektion für den Rest des Marktes lautet nicht: „Alles sollte Coding sein.“ Sie lautet, dass Agents überprüfbare Artefakte und Verifikationsschleifen brauchen.

2. App Builder und allgemeine Agents machten Prompts zu Workflows

Lovable, Bolt.new, Replit Agent und Manus sind Beispiele für Produkte, die auf die Erstellung von Apps, Websites oder ausführbarer Arbeit ausgerichtet sind; Perplexity beschreibt Labs als Erstellungsfunktion für Projekte wie Berichte, Dashboards und leichtgewichtige Apps.16171819 OpenAIs Entwicklerdokumentation beschreibt Computer-use- und Agent-Building-Primitive, einschließlich einer visuellen Browser-Tool-Oberfläche. Daher sollte seine Agent-Richtung eher als Teil derselben Workflow-Verschiebung verstanden werden und nicht als einfache Chat-Funktion.2021

Diese Produkte verkürzen die Distanz zwischen Absicht und Artefakt. Ihre Herausforderung ist dieselbe, vor der der breitere Agent-Markt steht: Sobald eine Aufgabe langlaufend, mehrstufig oder extern sichtbar wird, braucht das Produkt Zustand, Berechtigungen, Rollback und eine klare Übergabe vom generierten Entwurf zum Produktionsasset.

3. Enterprise Agents verschieben sich von Adoption zu Kontrolle

Salesforce Agentforce, ServiceNow AI Control Tower und Microsoft Copilot Studio spiegeln alle diese Enterprise-Realität wider.22232425 Agent-Adoption hängt heute von Sichtbarkeit, Richtlinien, Berechtigungen und operativer Verantwortung ab, nicht nur von Prompt-Qualität.

Zapier Agents, Lindy, Gumloop, Dust und Hebbia liegen näher an Workflow-Automation und Knowledge Work für Business-Teams.2627282930 Sie sind wichtig, weil Agent-Adoption nicht nur ein Engineering-Problem ist. Sales, Finance, Legal, Operations, Recruiting, Research und Support brauchen ebenfalls Agent-Systeme, die Tools nutzen können, ohne Richtlinien stillschweigend zu umgehen.

4. Frameworks und Runtimes wurden zur mittleren Agent-Schicht

LangGraph/LangChain, LangSmith, LlamaIndex, AutoGen, CrewAI, OpenAI Agents SDK, Vercel AI SDK, Mastra, PydanticAI, Agno und Letta repräsentieren die Build-Schicht unterhalb paketierter Produkte.313233343536373839404142

In dieser Schicht werden dauerhafter Zustand, Memory, Tool-Routing, menschliche Genehmigung, strukturierte Outputs und Multi-Agent-Orchestrierung zu wiederverwendbaren Primitiven. Hier entdecken viele Teams auch, dass „Agent“ keine einzelne Abstraktion ist. Ein Retrieval Assistant, ein Coding Worker, ein Browser Operator, ein Finanzanalyst und ein Customer-Service-Agent brauchen unterschiedliche Runtime-Verträge.

5. Infrastruktur und Observability wurden Produktionsanforderungen

Browserbase, Stagehand, Playwright MCP, E2B, Daytona, Temporal, Arcade und Composio sind keine Randwerkzeuge. Sie sind Teil der Agent-Control-Plane.4344454647484950

Agents brauchen Browser, weil ein großer Teil des Arbeits-Webs noch keine sauberen APIs hat. Sie brauchen Sandboxes, weil Code und Tools in isolierten Umgebungen laufen müssen. Sie brauchen dauerhafte Workflow-Engines, weil lange Aufgaben fehlschlagen und fortgesetzt werden. Sie brauchen Integrations-Gateways, weil Credentials, Berechtigungen und Aktionsbereiche nicht innerhalb eines Prompts improvisiert werden sollten.

LangSmith, Langfuse und Helicone zeigen dieselbe Reifung von der Observability-Seite.325152 Wenn ein Agent Kundendaten, Produktionssysteme oder teure Modellaufrufe berührt, brauchen Teams Traces, Evals, Kostentransparenz, Latenztransparenz und Regressionsprüfungen.

Fünf Trends, die man beobachten sollte

1. Reine Modell-Differenzierung verblasst zugunsten von Runtime-Differenzierung

Die besten Modelle konvergieren bei starkem Coding, Tool-Nutzung, langem Kontext und Planung. Anthropic berichtet Claude 4 Coding-Ergebnisse und die Verfügbarkeit von Claude Code, während Gemini 2.5 Pro Coding und Long-Context-Faehigkeit betont, DeepSeek V3.1 sich als Schritt in Richtung Agent-Ära rahmt und Qwen3-Coder große Trainingsumgebungen für Code-Agents hervorhebt.1467

Das macht die Runtime wichtiger, nicht weniger wichtig. Wenn mehrere Basismodelle gut genug schlussfolgern können, wählen Teams den Stack, der Zustand bewahren, Tools sicher aufrufen, Ergebnisse bewerten und Menschen in Kontrolle halten kann.

2. Observability wird zum Produktions-Gate

Die Frage „Hat das Modell geantwortet?“ ist für Agents zu schwach. Produktionsteams müssen wissen:

  • Welche Tools wurden aufgerufen?
  • Welcher Zustand hat sich geändert?
  • Welche Evidenz stützt den Abschluss?
  • Wie viel hat der Lauf gekostet?
  • Wo trat Latenz auf?
  • Welche Prompt-, Modell-, Tool- oder Umgebungsveränderung verursachte eine Regression?

Deshalb werden LangSmith, Langfuse, Helicone, Benchmark-Suites und Enterprise Command Centers Teil der Kaufdiskussion. Ein Unternehmen kann nicht steuern, was es nicht sehen kann.

3. Browser- und Code-Sandboxes werden First-Class-Infrastruktur

Computer-use Agents und Coding Agents brauchen sichere Betriebsflächen. Browserbase und Stagehand konzentrieren sich auf Browser-Automation für AI Agents; Playwright MCP stellt Browser-Steuerung über MCP bereit; E2B und Daytona konzentrieren sich auf isolierte Ausführungsumgebungen; Temporal rahmt dauerhafte Ausführung für agentic AI Workflows.434445464753

Das ist eine der wichtigsten Verschiebungen des ersten Halbjahrs 2026: Die „Agent-Umgebung“ wird zu einer Produktkategorie. In der Umgebung wird Autonomie entweder nützlich oder gefährlich.

4. Governance und Protokolle werden Standarderwartungen

MCP ist wichtig, weil es dem Markt eine gemeinsame Sprache gibt, um Modelle mit Tools und Kontext zu verbinden.5455 Doch Protokolle beseitigen Governance-Anforderungen nicht. Sie machen Governance dringlicher: Sobald Tools leichter verbunden werden können, brauchen Teams klarere Richtlinien dafür, wer sie verbinden darf, welche Aktionen erlaubt sind, wie Credentials abgegrenzt werden und wie Aktivitäten auditiert werden.

Salesforce Agentforce, ServiceNow AI Control Tower und Microsoft Copilot Studio spiegeln alle diese Enterprise-Realität. Agent-Adoption hängt heute von Sichtbarkeit, Richtlinien, Berechtigungen und operativer Verantwortung ab, nicht nur von Prompt-Qualität.

5. Der asynchrone Multi-Session-Workspace ist die fehlende Nutzerschicht

Ein einzelner Chat-Thread ist ein schlechter Container für lange Arbeit. Echte Agent-Arbeit verzweigt sich oft: Eine Session recherchiert, eine andere entwirft, eine andere testet, eine andere reviewed, eine weitere wartet auf ein geplantes Follow-up. Nutzer brauchen einen Ort, an dem diese Arbeitsströme, Dateien, Entscheidungen und Artefakte inspizierbar bleiben.

Hier passt MCPlato natürlich hinein. MCPlato lässt sich am besten als AI-Workspace-Schicht verstehen: eine Umgebung für lokale Materialien, mehrere Sessions, Hintergrund- oder geplante Arbeit, Artefakte und berechtigte, beobachtbare Ausführung.56 Es sollte nicht als universeller Ersatz für Coding Agents, Enterprise Control Towers oder Browser-Infrastruktur behandelt werden. Seine Rolle ist anders: Es hilft Nutzern, AI-Arbeit zu organisieren und zu beaufsichtigen, die sich über Dokumente, Recherche, Browser-Kontext, Office-Outputs und asynchrone Nachverfolgung erstreckt.

Anders gesagt gehört MCPlato zur Workspace-Schicht des Agent-Stacks: nah am Nutzer, nah an den Materialien und oberhalb der tieferen Runtime- und Infrastrukturkomponenten, die Ausführung möglich machen.

Ein praktischer Entscheidungsrahmen

Eine Entscheidungsmatrix zur Auswahl von Agent-Produkten nach Autonomiehorizont und Governance-BedarfEine Entscheidungsmatrix zur Auswahl von Agent-Produkten nach Autonomiehorizont und Governance-Bedarf

Abbildung 2: Entscheidungen zum Agent-Stack sollten auf Autonomiehorizont und Governance-Druck beruhen, nicht auf einem einzigen universellen Ranking.

Nutze fünf Fragen, bevor du einen Agent-Stack auswählst.

FrageWenn die Antwort „ja“ lautet, priorisiere
Wird der Agent Code, Daten, Datensätze oder externe Systeme verändern?Sandbox, Berechtigungen, Audit-Logs, Review-Gates, Rollback-Pfade
Läuft die Aufgabe länger als ein Prompt oder eine Session?Dauerhafter Zustand, Checkpoints, Hintergrundausführung, Workspace-Kontinuität
Wird der Agent Browser nutzen oder Code ausführen?Browser-Automation-Infrastruktur, isolierte Sandboxes, Credential-Grenzen
Werden mehrere Teams vom Output abhängen?Observability, Evals, Kostentracking, Richtlinien, Ownership
Müssen Nutzer viele parallele Arbeitsströme beaufsichtigen?AI Workspace, Multi-Session-Orchestrierung, Artefakte, Zusammenfassungen, Übergabedisziplin

Eine einfache Zuordnung hilft:

  • Kurze Coding-Aufgabe: Beginne mit einem coding-nativen Agent wie Claude Code, Codex, Cursor, Jules, Devin, Replit Agent oder GitHub Copilot coding agent.
  • App-Prototyp: Ziehe Lovable, Bolt.new, Replit Agent oder ähnliche Builder-Oberflächen in Betracht und füge vor der Produktion Review hinzu.
  • Business-Workflow-Automation: Betrachte Copilot Studio, Agentforce, ServiceNow, Zapier Agents, Lindy, Gumloop, Dust oder Hebbia je nach Daten, Governance und Domänenfit.
  • Custom Agent Product: Kombiniere Runtime- und Infrastrukturteile wie LangGraph, LlamaIndex, CrewAI, OpenAI Agents SDK, Vercel AI SDK, MCP, Browserbase, E2B, Temporal, Composio, Langfuse, Helicone und LangSmith.
  • Wissensarbeit über Materialien hinweg: Nutze ein AI-Workspace-Muster, bei dem MCPlato ein relevantes Beispiel ist, besonders wenn die Arbeit lokale Materialien, Recherche, Artefakte, mehrere Sessions und berechtigte Ausführung umfasst.

Fazit

Die Agent-Landschaft des ersten Halbjahrs 2026 ist kein Kampf zwischen „Modellen“ und „Produkten“. Sie ist die Entstehung eines vollständigen Stacks.

Modelle liefern das Reasoning-Substrat. Agent-Produkte paketieren häufige Aufgaben. Harnesses und Runtimes halten Arbeit zustandsbehaftet. Browser- und Sandbox-Infrastruktur machen Tool-Nutzung sicherer. Observability und Evals machen Ausführung inspizierbar. Governance macht Autonomie in Organisationen akzeptabel. AI Workspaces geben Nutzern einen Ort, um langlaufende Arbeit zu koordinieren.

Die Gewinner werden nicht einfach die Teams mit der größten Modell-Benchmark-Zahl sein. Es werden die Teams sein, die Modellintelligenz in verlässliche, überprüfbare und berechtigte Workflows verwandeln können.

Quellen

Footnotes

  1. Anthropic, “Introducing Claude 4,” https://www.anthropic.com/news/claude-4 2 3

  2. Anthropic, “Claude Sonnet 4.5,” https://www.anthropic.com/news/claude-sonnet-4-5

  3. Anthropic, “Claude Opus 4.8,” https://www.anthropic.com/news/claude-opus-4-8

  4. Google, “Gemini 2.5 Pro coding performance,” https://developers.googleblog.com/en/gemini-2-5-pro-io-improved-coding-performance/ 2

  5. DeepSeek, “DeepSeek-R1 release,” https://api-docs.deepseek.com/news/news250120

  6. DeepSeek, “DeepSeek-V3.1 release,” https://api-docs.deepseek.com/news/news250821 2

  7. Qwen, “Qwen3-Coder,” https://qwenlm.github.io/blog/qwen3-coder/ 2

  8. Mistral AI, “Magistral,” https://mistral.ai/news/magistral

  9. Anthropic, “Claude Code overview,” https://code.claude.com/docs/en/overview

  10. OpenAI Codex developer documentation, https://developers.openai.com/codex

  11. GitHub, “GitHub Copilot coding agent in public preview,” https://github.blog/changelog/2025-05-19-github-copilot-coding-agent-in-public-preview/

  12. Cursor changelog, https://cursor.com/changelog

  13. Cognition, “Devin 2,” https://cognition.ai/blog/devin-2

  14. Google, “Jules now available,” https://blog.google/innovation-and-ai/models-and-research/google-labs/jules-now-available/

  15. Replit, “Introducing Agent 3,” https://replit.com/blog/introducing-agent-3-our-most-autonomous-agent-yet

  16. Lovable, https://lovable.dev/

  17. Bolt.new, https://bolt.new/

  18. Manus, https://manus.im/

  19. Perplexity, “Getting started with Labs,” https://www.perplexity.ai/hub/getting-started

  20. OpenAI developer documentation, “Computer use,” https://developers.openai.com/api/docs/guides/tools-computer-use

  21. OpenAI developer documentation, “Agents,” https://developers.openai.com/api/docs/guides/agents

  22. Salesforce, “Salesforce launches Agentforce 3,” https://www.salesforce.com/ap/news/press-releases/2025/06/24/salesforce-launches-agentforce-3-to-solve-the-biggest-blockers-to-scaling-ai-agents-visibility-and-control/

  23. ServiceNow, “AI Control Tower,” https://www.servicenow.com/products/ai-control-tower.html

  24. Microsoft Copilot Studio release plan, https://learn.microsoft.com/en-us/power-platform/release-plan/2025wave2/microsoft-copilot-studio/

  25. Microsoft, “6 core capabilities to scale agent adoption in 2026,” https://www.microsoft.com/en-us/microsoft-copilot/blog/copilot-studio/6-core-capabilities-to-scale-agent-adoption-in-2026/

  26. Zapier, “AI agents survey,” https://zapier.com/blog/ai-agents-survey/

  27. Lindy Agents, https://www.lindy.ai/agents

  28. Gumloop, https://www.gumloop.com/

  29. Dust documentation, “Welcome to Dust,” https://docs.dust.tt/docs/welcome-to-dust

  30. Hebbia product, https://www.hebbia.com/product

  31. LangChain, “LangChain and LangGraph 1.0,” https://www.langchain.com/blog/langchain-langgraph-1dot0

  32. LangSmith platform, https://www.langchain.com/langsmith-platform 2

  33. LlamaIndex, “Introducing LlamaIndex 0.11,” https://www.llamaindex.ai/blog/introducing-llamaindex-0-11

  34. Microsoft Research, AutoGen, https://www.microsoft.com/en-us/research/project/autogen/

  35. CrewAI, “CrewAI OSS 1.0,” https://blog.crewai.com/crewai-oss-1-0-we-are-going-ga/

  36. OpenAI Agents SDK, https://openai.github.io/openai-agents-python/

  37. Vercel AI SDK documentation, https://ai-sdk.dev/docs/introduction

  38. Vercel, “Agentic infrastructure,” https://vercel.com/blog/agentic-infrastructure

  39. Mastra, https://mastra.ai/

  40. PydanticAI documentation, https://pydantic.dev/docs/ai/

  41. Agno documentation, https://docs.agno.com/introduction

  42. Letta, “Letta v1 agent,” https://www.letta.com/blog/letta-v1-agent

  43. Browserbase for AI, https://www.browserbase.com/industry/ai 2

  44. Browserbase Stagehand, https://www.browserbase.com/stagehand 2

  45. Microsoft Playwright MCP, https://github.com/microsoft/playwright-mcp 2

  46. E2B Enterprise, https://e2b.dev/enterprise 2

  47. Daytona sandboxes, https://www.daytona.io/docs/en/sandboxes/ 2

  48. Temporal AI solutions, https://temporal.io/solutions/ai

  49. Arcade, https://www.arcade.dev/

  50. Composio, https://composio.dev/

  51. Langfuse documentation, https://langfuse.com/docs

  52. Helicone, https://www.helicone.ai/

  53. Temporal, Agentic AI, https://temporal.io/ai/agentic-ai

  54. Anthropic, “Model Context Protocol,” https://www.anthropic.com/news/model-context-protocol

  55. Model Context Protocol, “2026 MCP Roadmap,” https://blog.modelcontextprotocol.io/posts/2026-mcp-roadmap/

  56. MCPlato, https://mcplato.com/en/