AI Agents

Agent Stack

Agent Harness

Runtime

AI Workspace

MCPlato

Der Agent-Stack im ersten Halbjahr 2026: Modelle, Harnesses, Runtimes und AI Workspaces

Eine knappe Landschaft des ersten Halbjahrs 2026 zu AI Agents, Coding Agents, Harnesses, Runtimes, Browser- und Sandbox-Infrastruktur, Observability, Governance und AI Workspaces — mit MCPlato als Teil der Workspace-Schicht.

MCPlato Research TeamVeröffentlicht am 2026-05-29

Das Agent-Rennen im ersten Halbjahr 2026 sieht nicht mehr wie eine einfache Rangliste von Modellen aus.

Bessere Modelle bleiben wichtig. Claude 4, Claude Sonnet 4.5, Claude Opus 4.8, Gemini 2.5 Pro, DeepSeek R1/V3.1, Qwen3-Coder und Mistral Magistral haben die Basisschicht bei Reasoning, Coding, Kontext und Tool-Nutzung weiter vorangebracht.¹²³⁴⁵⁶⁷⁸ Doch die Wettbewerbsfrage hat sich verändert:

Wer kann diese Modelle in verlässliche Arbeit bringen?

Das bedeutet Harnesses, Runtimes, Browser, Sandboxes, Evals, Observability, Governance, Berechtigungen und nutzerorientierte Workspaces. Das Modell ist der Motor. Das Agent-Produkt ist das Fahrzeug. Harness und Workspace entscheiden, ob dieses Fahrzeug in einem echten Unternehmen laufen kann, ohne Zustand, Autorität oder Vertrauen zu verlieren.

Der geschichtete Agent-Stack im ersten Halbjahr 2026

Eine hilfreiche Art, den Markt zu lesen, ist ein Stack, nicht ein Verzeichnis von Logos.

Ein geschichteter Agent-Stack des ersten Halbjahrs 2026 von Foundation Models bis AI Workspace

Abbildung 1: Der Agent-Stack des ersten Halbjahrs 2026 bewegt sich von Modellfähigkeiten nach oben in Richtung Ausführung, Observability, Governance und Workspace-Kontinuität.

Schicht	Beitrag	Repräsentative Beispiele
Foundation Models	Reasoning, Coding, langer Kontext, Computer-/Tool-Nutzung, Planung	Claude 4 / Sonnet 4.5 / Opus 4.8, Gemini 2.5 Pro, DeepSeek R1/V3.1, Qwen3-Coder, Mistral Magistral
Agent-Produkte	Paketierte Workflows für Coding, Recherche, App-Building, Operations und Unternehmensprozesse	Claude Code, OpenAI Codex, GitHub Copilot coding agent, Cursor, Devin, Jules, Replit Agent, Lovable, Bolt.new, Manus, Perplexity Labs
Harness / Runtime	Zustand, Wiederholungen, Human-in-the-loop, Orchestrierung, Memory, strukturierte Tool-Aufrufe	LangGraph/LangChain, LlamaIndex, AutoGen, CrewAI, OpenAI Agents SDK, Vercel AI SDK, Mastra, PydanticAI, Agno, Letta
Browser- und Sandbox-Infrastruktur	Sichere Ausführungsumgebungen, Browser-Automation, Code-Sandboxes, Task-Isolation	Browserbase, Stagehand, Playwright MCP, E2B, Daytona, Temporal, Arcade, Composio
Observability und Evals	Traces, Kosten, Latenz, Regressionstests, Prompt-/Tool-Debugging, Produktionsreview	LangSmith, Langfuse, Helicone, Modell- und Agent-Benchmarks
Enterprise Governance	Sichtbarkeit, Zugriffskontrolle, Richtlinien, Agent-Inventar, Auditierbarkeit, Compliance-Workflows	Microsoft Copilot Studio, Salesforce Agentforce, ServiceNow AI Control Tower, MCP-basierte Integrationsmuster
AI Workspace	Der nutzerorientierte Ort, an dem mehrstufige Arbeit, Dateien, Sessions, Artefakte und Entscheidungen bestehen bleiben	MCPlato, Dust, Hebbia, Workspace-artige Agent-Plattformen

Der wichtige Punkt ist nicht, dass jedes Produkt jede Schicht abdecken muss. Entscheidend ist, dass ernsthafte Agent-Arbeit all diese Schichten irgendwo im System braucht.

Produktcluster statt Rohverzeichnis

1. Coding Agents wurden zur ersten Massenmarkt-Kategorie für Agents

Coding Agents sind der klarste Beweis dafür, dass Agents über Chat hinausgehen können. Claude Code wurde zusammen mit Claude 4 allgemein verfügbar und ist als agentic coding tool für Terminal- und Entwicklungsworkflows dokumentiert.¹⁹ OpenAI Codex, GitHub Copilot coding agent, Cursor, Devin, Google Jules und Replit Agent zeigen alle in dieselbe Richtung: Entwickler wollen Agents, die Repositories inspizieren, Dateien bearbeiten, Befehle ausführen, Pull Requests öffnen und Arbeit über lokale und Cloud-Kontexte hinweg fortsetzen können.¹⁰¹¹¹²¹³¹⁴¹⁵

Dieser Cluster ist vorn, weil Softwarearbeit bereits nützliche Leitplanken hat: Dateien, Diffs, Tests, Logs, Branches, CI und Review. Die Lektion für den Rest des Marktes lautet nicht: „Alles sollte Coding sein.“ Sie lautet, dass Agents überprüfbare Artefakte und Verifikationsschleifen brauchen.

2. App Builder und allgemeine Agents machten Prompts zu Workflows

Lovable, Bolt.new, Replit Agent und Manus sind Beispiele für Produkte, die auf die Erstellung von Apps, Websites oder ausführbarer Arbeit ausgerichtet sind; Perplexity beschreibt Labs als Erstellungsfunktion für Projekte wie Berichte, Dashboards und leichtgewichtige Apps.¹⁶¹⁷¹⁸¹⁹ OpenAIs Entwicklerdokumentation beschreibt Computer-use- und Agent-Building-Primitive, einschließlich einer visuellen Browser-Tool-Oberfläche. Daher sollte seine Agent-Richtung eher als Teil derselben Workflow-Verschiebung verstanden werden und nicht als einfache Chat-Funktion.²⁰²¹

Diese Produkte verkürzen die Distanz zwischen Absicht und Artefakt. Ihre Herausforderung ist dieselbe, vor der der breitere Agent-Markt steht: Sobald eine Aufgabe langlaufend, mehrstufig oder extern sichtbar wird, braucht das Produkt Zustand, Berechtigungen, Rollback und eine klare Übergabe vom generierten Entwurf zum Produktionsasset.

3. Enterprise Agents verschieben sich von Adoption zu Kontrolle

Salesforce Agentforce, ServiceNow AI Control Tower und Microsoft Copilot Studio spiegeln alle diese Enterprise-Realität wider.²²²³²⁴²⁵ Agent-Adoption hängt heute von Sichtbarkeit, Richtlinien, Berechtigungen und operativer Verantwortung ab, nicht nur von Prompt-Qualität.

Zapier Agents, Lindy, Gumloop, Dust und Hebbia liegen näher an Workflow-Automation und Knowledge Work für Business-Teams.²⁶²⁷²⁸²⁹³⁰ Sie sind wichtig, weil Agent-Adoption nicht nur ein Engineering-Problem ist. Sales, Finance, Legal, Operations, Recruiting, Research und Support brauchen ebenfalls Agent-Systeme, die Tools nutzen können, ohne Richtlinien stillschweigend zu umgehen.

4. Frameworks und Runtimes wurden zur mittleren Agent-Schicht

LangGraph/LangChain, LangSmith, LlamaIndex, AutoGen, CrewAI, OpenAI Agents SDK, Vercel AI SDK, Mastra, PydanticAI, Agno und Letta repräsentieren die Build-Schicht unterhalb paketierter Produkte.³¹³²³³³⁴³⁵³⁶³⁷³⁸³⁹⁴⁰⁴¹⁴²

In dieser Schicht werden dauerhafter Zustand, Memory, Tool-Routing, menschliche Genehmigung, strukturierte Outputs und Multi-Agent-Orchestrierung zu wiederverwendbaren Primitiven. Hier entdecken viele Teams auch, dass „Agent“ keine einzelne Abstraktion ist. Ein Retrieval Assistant, ein Coding Worker, ein Browser Operator, ein Finanzanalyst und ein Customer-Service-Agent brauchen unterschiedliche Runtime-Verträge.

5. Infrastruktur und Observability wurden Produktionsanforderungen

Browserbase, Stagehand, Playwright MCP, E2B, Daytona, Temporal, Arcade und Composio sind keine Randwerkzeuge. Sie sind Teil der Agent-Control-Plane.⁴³⁴⁴⁴⁵⁴⁶⁴⁷⁴⁸⁴⁹⁵⁰

Agents brauchen Browser, weil ein großer Teil des Arbeits-Webs noch keine sauberen APIs hat. Sie brauchen Sandboxes, weil Code und Tools in isolierten Umgebungen laufen müssen. Sie brauchen dauerhafte Workflow-Engines, weil lange Aufgaben fehlschlagen und fortgesetzt werden. Sie brauchen Integrations-Gateways, weil Credentials, Berechtigungen und Aktionsbereiche nicht innerhalb eines Prompts improvisiert werden sollten.

LangSmith, Langfuse und Helicone zeigen dieselbe Reifung von der Observability-Seite.³²⁵¹⁵² Wenn ein Agent Kundendaten, Produktionssysteme oder teure Modellaufrufe berührt, brauchen Teams Traces, Evals, Kostentransparenz, Latenztransparenz und Regressionsprüfungen.

Fünf Trends, die man beobachten sollte

1. Reine Modell-Differenzierung verblasst zugunsten von Runtime-Differenzierung

Die besten Modelle konvergieren bei starkem Coding, Tool-Nutzung, langem Kontext und Planung. Anthropic berichtet Claude 4 Coding-Ergebnisse und die Verfügbarkeit von Claude Code, während Gemini 2.5 Pro Coding und Long-Context-Faehigkeit betont, DeepSeek V3.1 sich als Schritt in Richtung Agent-Ära rahmt und Qwen3-Coder große Trainingsumgebungen für Code-Agents hervorhebt.¹⁴⁶⁷

Das macht die Runtime wichtiger, nicht weniger wichtig. Wenn mehrere Basismodelle gut genug schlussfolgern können, wählen Teams den Stack, der Zustand bewahren, Tools sicher aufrufen, Ergebnisse bewerten und Menschen in Kontrolle halten kann.

2. Observability wird zum Produktions-Gate

Die Frage „Hat das Modell geantwortet?“ ist für Agents zu schwach. Produktionsteams müssen wissen:

Welche Tools wurden aufgerufen?
Welcher Zustand hat sich geändert?
Welche Evidenz stützt den Abschluss?
Wie viel hat der Lauf gekostet?
Wo trat Latenz auf?
Welche Prompt-, Modell-, Tool- oder Umgebungsveränderung verursachte eine Regression?

Deshalb werden LangSmith, Langfuse, Helicone, Benchmark-Suites und Enterprise Command Centers Teil der Kaufdiskussion. Ein Unternehmen kann nicht steuern, was es nicht sehen kann.

3. Browser- und Code-Sandboxes werden First-Class-Infrastruktur

Computer-use Agents und Coding Agents brauchen sichere Betriebsflächen. Browserbase und Stagehand konzentrieren sich auf Browser-Automation für AI Agents; Playwright MCP stellt Browser-Steuerung über MCP bereit; E2B und Daytona konzentrieren sich auf isolierte Ausführungsumgebungen; Temporal rahmt dauerhafte Ausführung für agentic AI Workflows.⁴³⁴⁴⁴⁵⁴⁶⁴⁷⁵³

Das ist eine der wichtigsten Verschiebungen des ersten Halbjahrs 2026: Die „Agent-Umgebung“ wird zu einer Produktkategorie. In der Umgebung wird Autonomie entweder nützlich oder gefährlich.

4. Governance und Protokolle werden Standarderwartungen

MCP ist wichtig, weil es dem Markt eine gemeinsame Sprache gibt, um Modelle mit Tools und Kontext zu verbinden.⁵⁴⁵⁵ Doch Protokolle beseitigen Governance-Anforderungen nicht. Sie machen Governance dringlicher: Sobald Tools leichter verbunden werden können, brauchen Teams klarere Richtlinien dafür, wer sie verbinden darf, welche Aktionen erlaubt sind, wie Credentials abgegrenzt werden und wie Aktivitäten auditiert werden.

Salesforce Agentforce, ServiceNow AI Control Tower und Microsoft Copilot Studio spiegeln alle diese Enterprise-Realität. Agent-Adoption hängt heute von Sichtbarkeit, Richtlinien, Berechtigungen und operativer Verantwortung ab, nicht nur von Prompt-Qualität.

5. Der asynchrone Multi-Session-Workspace ist die fehlende Nutzerschicht

Ein einzelner Chat-Thread ist ein schlechter Container für lange Arbeit. Echte Agent-Arbeit verzweigt sich oft: Eine Session recherchiert, eine andere entwirft, eine andere testet, eine andere reviewed, eine weitere wartet auf ein geplantes Follow-up. Nutzer brauchen einen Ort, an dem diese Arbeitsströme, Dateien, Entscheidungen und Artefakte inspizierbar bleiben.

Hier passt MCPlato natürlich hinein. MCPlato lässt sich am besten als AI-Workspace-Schicht verstehen: eine Umgebung für lokale Materialien, mehrere Sessions, Hintergrund- oder geplante Arbeit, Artefakte und berechtigte, beobachtbare Ausführung.⁵⁶ Es sollte nicht als universeller Ersatz für Coding Agents, Enterprise Control Towers oder Browser-Infrastruktur behandelt werden. Seine Rolle ist anders: Es hilft Nutzern, AI-Arbeit zu organisieren und zu beaufsichtigen, die sich über Dokumente, Recherche, Browser-Kontext, Office-Outputs und asynchrone Nachverfolgung erstreckt.

Anders gesagt gehört MCPlato zur Workspace-Schicht des Agent-Stacks: nah am Nutzer, nah an den Materialien und oberhalb der tieferen Runtime- und Infrastrukturkomponenten, die Ausführung möglich machen.

Ein praktischer Entscheidungsrahmen

Eine Entscheidungsmatrix zur Auswahl von Agent-Produkten nach Autonomiehorizont und Governance-Bedarf

Abbildung 2: Entscheidungen zum Agent-Stack sollten auf Autonomiehorizont und Governance-Druck beruhen, nicht auf einem einzigen universellen Ranking.

Nutze fünf Fragen, bevor du einen Agent-Stack auswählst.

Frage	Wenn die Antwort „ja“ lautet, priorisiere
Wird der Agent Code, Daten, Datensätze oder externe Systeme verändern?	Sandbox, Berechtigungen, Audit-Logs, Review-Gates, Rollback-Pfade
Läuft die Aufgabe länger als ein Prompt oder eine Session?	Dauerhafter Zustand, Checkpoints, Hintergrundausführung, Workspace-Kontinuität
Wird der Agent Browser nutzen oder Code ausführen?	Browser-Automation-Infrastruktur, isolierte Sandboxes, Credential-Grenzen
Werden mehrere Teams vom Output abhängen?	Observability, Evals, Kostentracking, Richtlinien, Ownership
Müssen Nutzer viele parallele Arbeitsströme beaufsichtigen?	AI Workspace, Multi-Session-Orchestrierung, Artefakte, Zusammenfassungen, Übergabedisziplin

Eine einfache Zuordnung hilft:

Kurze Coding-Aufgabe: Beginne mit einem coding-nativen Agent wie Claude Code, Codex, Cursor, Jules, Devin, Replit Agent oder GitHub Copilot coding agent.
App-Prototyp: Ziehe Lovable, Bolt.new, Replit Agent oder ähnliche Builder-Oberflächen in Betracht und füge vor der Produktion Review hinzu.
Business-Workflow-Automation: Betrachte Copilot Studio, Agentforce, ServiceNow, Zapier Agents, Lindy, Gumloop, Dust oder Hebbia je nach Daten, Governance und Domänenfit.
Custom Agent Product: Kombiniere Runtime- und Infrastrukturteile wie LangGraph, LlamaIndex, CrewAI, OpenAI Agents SDK, Vercel AI SDK, MCP, Browserbase, E2B, Temporal, Composio, Langfuse, Helicone und LangSmith.
Wissensarbeit über Materialien hinweg: Nutze ein AI-Workspace-Muster, bei dem MCPlato ein relevantes Beispiel ist, besonders wenn die Arbeit lokale Materialien, Recherche, Artefakte, mehrere Sessions und berechtigte Ausführung umfasst.

Fazit

Die Agent-Landschaft des ersten Halbjahrs 2026 ist kein Kampf zwischen „Modellen“ und „Produkten“. Sie ist die Entstehung eines vollständigen Stacks.

Modelle liefern das Reasoning-Substrat. Agent-Produkte paketieren häufige Aufgaben. Harnesses und Runtimes halten Arbeit zustandsbehaftet. Browser- und Sandbox-Infrastruktur machen Tool-Nutzung sicherer. Observability und Evals machen Ausführung inspizierbar. Governance macht Autonomie in Organisationen akzeptabel. AI Workspaces geben Nutzern einen Ort, um langlaufende Arbeit zu koordinieren.

Die Gewinner werden nicht einfach die Teams mit der größten Modell-Benchmark-Zahl sein. Es werden die Teams sein, die Modellintelligenz in verlässliche, überprüfbare und berechtigte Workflows verwandeln können.

Quellen

Footnotes

Anthropic, “Introducing Claude 4,” https://www.anthropic.com/news/claude-4 ↩ ↩² ↩³
Anthropic, “Claude Sonnet 4.5,” https://www.anthropic.com/news/claude-sonnet-4-5 ↩
Anthropic, “Claude Opus 4.8,” https://www.anthropic.com/news/claude-opus-4-8 ↩
Google, “Gemini 2.5 Pro coding performance,” https://developers.googleblog.com/en/gemini-2-5-pro-io-improved-coding-performance/ ↩ ↩²
DeepSeek, “DeepSeek-R1 release,” https://api-docs.deepseek.com/news/news250120 ↩
DeepSeek, “DeepSeek-V3.1 release,” https://api-docs.deepseek.com/news/news250821 ↩ ↩²
Qwen, “Qwen3-Coder,” https://qwenlm.github.io/blog/qwen3-coder/ ↩ ↩²
Mistral AI, “Magistral,” https://mistral.ai/news/magistral ↩
Anthropic, “Claude Code overview,” https://code.claude.com/docs/en/overview ↩
OpenAI Codex developer documentation, https://developers.openai.com/codex ↩
GitHub, “GitHub Copilot coding agent in public preview,” https://github.blog/changelog/2025-05-19-github-copilot-coding-agent-in-public-preview/ ↩
Cursor changelog, https://cursor.com/changelog ↩
Cognition, “Devin 2,” https://cognition.ai/blog/devin-2 ↩
Google, “Jules now available,” https://blog.google/innovation-and-ai/models-and-research/google-labs/jules-now-available/ ↩
Replit, “Introducing Agent 3,” https://replit.com/blog/introducing-agent-3-our-most-autonomous-agent-yet ↩
Lovable, https://lovable.dev/ ↩
Bolt.new, https://bolt.new/ ↩
Manus, https://manus.im/ ↩
Perplexity, “Getting started with Labs,” https://www.perplexity.ai/hub/getting-started ↩
OpenAI developer documentation, “Computer use,” https://developers.openai.com/api/docs/guides/tools-computer-use ↩
OpenAI developer documentation, “Agents,” https://developers.openai.com/api/docs/guides/agents ↩
Salesforce, “Salesforce launches Agentforce 3,” https://www.salesforce.com/ap/news/press-releases/2025/06/24/salesforce-launches-agentforce-3-to-solve-the-biggest-blockers-to-scaling-ai-agents-visibility-and-control/ ↩
ServiceNow, “AI Control Tower,” https://www.servicenow.com/products/ai-control-tower.html ↩
Microsoft Copilot Studio release plan, https://learn.microsoft.com/en-us/power-platform/release-plan/2025wave2/microsoft-copilot-studio/ ↩
Microsoft, “6 core capabilities to scale agent adoption in 2026,” https://www.microsoft.com/en-us/microsoft-copilot/blog/copilot-studio/6-core-capabilities-to-scale-agent-adoption-in-2026/ ↩
Zapier, “AI agents survey,” https://zapier.com/blog/ai-agents-survey/ ↩
Lindy Agents, https://www.lindy.ai/agents ↩
Gumloop, https://www.gumloop.com/ ↩
Dust documentation, “Welcome to Dust,” https://docs.dust.tt/docs/welcome-to-dust ↩
Hebbia product, https://www.hebbia.com/product ↩
LangChain, “LangChain and LangGraph 1.0,” https://www.langchain.com/blog/langchain-langgraph-1dot0 ↩
LangSmith platform, https://www.langchain.com/langsmith-platform ↩ ↩²
LlamaIndex, “Introducing LlamaIndex 0.11,” https://www.llamaindex.ai/blog/introducing-llamaindex-0-11 ↩
Microsoft Research, AutoGen, https://www.microsoft.com/en-us/research/project/autogen/ ↩
CrewAI, “CrewAI OSS 1.0,” https://blog.crewai.com/crewai-oss-1-0-we-are-going-ga/ ↩
OpenAI Agents SDK, https://openai.github.io/openai-agents-python/ ↩
Vercel AI SDK documentation, https://ai-sdk.dev/docs/introduction ↩
Vercel, “Agentic infrastructure,” https://vercel.com/blog/agentic-infrastructure ↩
Mastra, https://mastra.ai/ ↩
PydanticAI documentation, https://pydantic.dev/docs/ai/ ↩
Agno documentation, https://docs.agno.com/introduction ↩
Letta, “Letta v1 agent,” https://www.letta.com/blog/letta-v1-agent ↩
Browserbase for AI, https://www.browserbase.com/industry/ai ↩ ↩²
Browserbase Stagehand, https://www.browserbase.com/stagehand ↩ ↩²
Microsoft Playwright MCP, https://github.com/microsoft/playwright-mcp ↩ ↩²
E2B Enterprise, https://e2b.dev/enterprise ↩ ↩²
Daytona sandboxes, https://www.daytona.io/docs/en/sandboxes/ ↩ ↩²
Temporal AI solutions, https://temporal.io/solutions/ai ↩
Arcade, https://www.arcade.dev/ ↩
Composio, https://composio.dev/ ↩
Langfuse documentation, https://langfuse.com/docs ↩
Helicone, https://www.helicone.ai/ ↩
Temporal, Agentic AI, https://temporal.io/ai/agentic-ai ↩
Anthropic, “Model Context Protocol,” https://www.anthropic.com/news/model-context-protocol ↩
Model Context Protocol, “2026 MCP Roadmap,” https://blog.modelcontextprotocol.io/posts/2026-mcp-roadmap/ ↩
MCPlato, https://mcplato.com/en/ ↩

Weiterlesen

OpenClaw vs Claude Code vs Hermes vs MCPlato: Deep Dive zu AI-Agent-Harnesses 2026
Ein datengetriebener Vergleich der vier führenden AI-Agent-Harnesses in 2026. Wir analysieren OpenClaw, Claude Code, Hermes Agent und MCPlato hinsichtlich Architektur, Benchmarks, Preisgestaltung und Praxistauglichkeit.
Pi, Hermes, Codex, Claude Code und MCPlato: Welcher Agent passt zu deiner Arbeit?
Ein praktischer, szenariobasierter Vergleich von Pi Agent, Hermes Agent, Codex, Claude Code und MCPlato mit Blick auf Kontrolle, Workflow-Fit, lang laufende Aufgaben und Berechtigungsstrategie.
Harness and Agent: Die mehrschichtige Architektur von KI-Systemen
Erforschung der Beziehung zwischen Tool-Layer und Agent-Layer und wie MCPlato eine MCP-native Architektur implementiert
Engineering-Durchbruch bei Long-Running AI Agents: Warum Anthropic's Harness-Framework wichtig ist
KI kann keine langen Aufgaben erledigen, nicht weil sie nicht intelligent genug ist, sondern weil ihr engineering-arbeitsmethoden fehlen. Eine vertiefte Analyse der vier Kernmechanismen des Anthropic Harness-Frameworks und wie MCPlato ähnliche Engineering-Designs implementiert.
Warum SaaS-Bench zeigt, dass AI Agents Harnesses brauchen, nicht nur größere Modelle
SaaS-Bench testet computer-use agents in realen professionellen SaaS-Workflows und legt die Lücke zwischen Teilfortschritt und verifizierter Fertigstellung offen. Das Ergebnis verweist auf agent harnesses, workspace state, verification, permissions und recovery als nächste Produktschicht.