Zurück zum Blog
KI-Agent
Langzeit-Ausführung
Anthropic
MCPlato
Engineering
Kontext-Management

Engineering-Durchbruch bei Long-Running AI Agents: Warum Anthropic's Harness-Framework wichtig ist

KI kann keine langen Aufgaben erledigen, nicht weil sie nicht intelligent genug ist, sondern weil ihr engineering-arbeitsmethoden fehlen. Eine vertiefte Analyse der vier Kernmechanismen des Anthropic Harness-Frameworks und wie MCPlato ähnliche Engineering-Designs implementiert.

Veröffentlicht am 2026-03-27

Engineering-Durchbruch bei Long-Running AI Agents: Warum Anthropic's Harness-Framework wichtig ist

Einleitung: Der wahre Grund, warum KI keine langen Aufgaben erledigen kann

2025 wird die Leistungsgrenze von KI-Agenten neu definiert.

Während Modelle wie Claude und GPT-4o in der Lage sind, grammatikalisch korrekten Code zu schreiben und komplexe Reasoning-Tests zu bestehen, wird gleichzeitig eine peinliche Realität offensichtlich: KI ist bei langfristigen Aufgaben immer noch fragil. Gibt man einem KI-Agenten ein komplexes Projekt, das Stunden dauert, "vergisst" er oft auf halbem Weg, was er tun sollte, driftet von den ursprünglichen Zielen ab oder versucht, die Aufgabe auf spekulative Weise zu "vervollständigen".

Die Wurzel des Problems liegt nicht darin, dass das Modell nicht intelligent genug ist, sondern dass engineering-arbeitsmethoden fehlen.

Anthropic hat kürzlich in einem Engineering-Blog die Essenz dieses Problems aufgedeckt und ein Framework namens Harness vorgestellt. Die zentrale Erkenntnis dieses Artikels ist es wert, von jedem ernsthaft geprüft zu werden, der sich mit KI-Agenten-Implementierung beschäftigt:

Der Durchbruch bei langfristigen KI-Agenten liegt nicht im Modell, sondern im Systemdesign.

Dieser Artikel analysiert die vier Kernmechanismen des Anthropic Harness-Frameworks und untersucht ähnliche Praktiken im Engineering-Design von MCPlato.

Die drei zentralen Herausforderungen bei langfristigen KI-Agenten

Bevor wir Lösungen diskutieren, müssen wir uns den Problemen ehrlich stellen. Basierend auf Branchenbeobachtungen und Praxis-Rückblicken stehen langfristige KI-Agenten vor den folgenden zentralen Herausforderungen:

1. Kontextvergessen (Context Rot)

KI-Agenten stoßen bei langfristigen Aufgaben auf Token-Beschränkungen und verlieren die Spur früherer Entscheidungen und wichtiger Anweisungen. Entwickler nennen dieses Phänomen "Kontext-Rot" – der Agent "vergisst" während der Arbeit, warum er diese Aufgabe überhaupt erledigt, und wiederholt sogar Schritte, die bereits abgeschlossen wurden.

2. Zieldrift (Goal Drift)

Ohne klare Checkpoints und Validierungsmechanismen driftet die KI zunehmend ab. Wenn sie auf Hindernisse stößt, neigt sie dazu, die Ziele anzupassen, anstatt die Schwierigkeiten zu überwinden.

3. Nicht wiederherstellbare unidirektionale Ausführung

Die meisten KI-Agenten verwenden einen "One-Shot"-Ausführungsmodus: Start vom Ausgangspunkt, geradeaus vorwärts, bei Fehlern von vorne beginnen. Kein persistenter Zustand, kein Rollback-Mechanismus.

Anthropic's Lösung: Einführung eines externen "Harness"

Angesichts dieser Herausforderungen ist Anthropic's Lösung kontraintuitiv: Das Modell wird nicht verstärkt, sondern ein externes Framework wird eingeführt, um die Arbeitsweise der KI zu disziplinieren.

Die Kernthese dieses Frameworks: Verwandeln Sie KI von "jemandem, der Code schreiben kann" in "jemanden, der im Engineering-System arbeitet".

Das Harness-Framework umfasst vier Kernmechanismen:

1. Externes Gedächtnis ersetzt Kontext

Problem: Die Abhängigkeit vom Kontextfenster des Modells führt bei langfristigen Aufgaben unweigerlich zu Token-Beschränkungen.

Lösung: Verwendung des Dateisystems zum Speichern des Zustands und "Neuladen der Welt" in jeder Runde statt sich auf das Gedächtnis zu verlassen.

Harness verwendet folgende Dateien zur Zustandserhaltung:

  • Feature List: Funktionsliste des aktuellen Projekts, abgeschlossene und ausstehende Aufgaben
  • Progress Log: Detailliertes Ausführungsprotokoll, das aufzeichnet, was in jedem Schritt getan wurde und warum
  • Git Repository: Vollständige Versionskontrolle, Commit-Historie für jede Änderung

2. Erzwungene Aufgabenzerlegung + validierbare Checkpoints

Problem: Gibt man einer KI ein großes Ziel ("Erstelle eine E-Commerce-Website"), verfällt sie in "Planungslähmung" oder erstellt ein halbfertiges Produkt voller Lücken.

Lösung: Arbeiten Sie eine Funktion nach der anderen ab, jeder Schritt verifizierbar und rollback-fähig.

3. Fester Ausführungszyklus

Problem: Die "Improvisation" der KI führt zu unvorhersehbarem Verhalten, dieselbe Eingabe kann unterschiedliche Ausgaben erzeugen.

Lösung: Arbeiten Sie wie ein Ingenieur nach dem Prozess, nicht improvisierend.

Der Ausführungszyklus von Harness:

Zustand lesen → Aufgabe wählen → Funktion implementieren → Tests ausführen → Code commiten → Log protokollieren → Schleife

4. Test-First

Problem: KI neigt dazu, Funktionen zu "löschen", um Bugs zu beheben.

Lösung: Tests müssen vor der Funktion definiert werden, und das Bestehen von Tests durch Löschen von Funktionen ist nicht erlaubt.

Vergleich mit MCPlato's Engineering-Praktiken

Anthropic's Harness-Framework zeigt einen wichtigen Trend: Die Reife von KI-Agenten liegt nicht in der Modellfähigkeit, sondern im Engineering-Design.

MCPlato's Designphilosophie weist viele Parallelen zu Harness auf und löst zentrale Herausforderungen bei langfristigen KI-Agenten durch Systemarchitektur:

Anthropic HarnessMCPlato's entsprechende Implementierung
Externe Datei-ZustandsspeicherungSession-Persistenz + ClawMode Zustandsverfolgung
Aufgabenzerlegung + CheckpointsTodo-Task-System + schrittweise Bestätigung
Fester AusführungszyklusSprite Orchestrierungs-Workflow + Worker Session-Aufteilung
Wiederherstellbar / ReproduzierbarSession-Unterbrechungswiederherstellung, Historien-Wiedergabe
Mensch-KI-KollaborationsknotenManuelle Bestätigungspunkte (AskUserQuestion)

Engineering-Denken: Von "Code schreiben" zu "im System arbeiten"

Anthropic's Harness-Framework und MCPlato's Praktiken führen zum gleichen Schluss:

Der Durchbruch bei langfristigen KI-Agenten liegt nicht darin, das Modell intelligenter zu machen, sondern darin, die KI mehr wie einen Ingenieur arbeiten zu lassen.

Das bedeutet:

  • Wie ein Team arbeiten: Mit Backlog, Commits, Logs statt Improvisation
  • Wie ein Neuling ausführen: Dem Prozess folgen, keine Schritte überspringen, nicht zu clever sein
  • Wie eine Maschine stabil sein: Wiederherstellbar, reproduzierbar, verifizierbar

Implikationen für die Branche

Die Ankündigung des Harness-Frameworks sendet ein wichtiges Signal: Der Wettbewerb bei KI-Agenten verschiebt sich von "Modellfähigkeit" zu "Engineering-Reife".

Für Teams, die KI-Agenten aufbauen, sind folgende Punkte erwägenswert:

1. Übermäßige Abhängigkeit von der "Intelligenz" des Modells vermeiden

Selbst das intelligenteste Modell wird bei langfristigen Aufgaben auf Kontextbeschränkungen stoßen. Statt unendlichen Kontext zu verfolgen, sollte man Architekturen entwerfen, die die "Welt neu laden" können.

2. Prozess ist wichtiger als Fähigkeit

Vorhersehbarkeit kommt aus Prozessstandardisierung. Einen klaren Workflow für KI zu entwerfen ist zuverlässiger, als sie "frei schalten und walten" zu lassen.

3. Mensch-KI-Zusammenarbeit ist kein Kompromiss, sondern ein Muss

Vollständig autonome KI ist das ultimative Ziel, aber vor Erreichung dieses Ziels ist menschliche Aufsicht ein notwendiges Mittel zur Sicherstellung von Zuverlässigkeit.

4. Beobachtbarkeit ist die Voraussetzung für Wartbarkeit

Wenn Sie den Entscheidungsprozess der KI nicht nachvollziehen können, können Sie ihn nicht verbessern, debuggen oder vertrauen.

Fazit

Anthropic's Harness-Framework zeigt einen wichtigen Paradigmenwechsel: Der nächste Durchbruch bei KI-Agenten liegt nicht im Modell, sondern im Engineering.

Dies ist keine Verneinung der Modellfähigkeit, sondern ein Neudenken der Probleme. KI kann keine langen Aufgaben erledigen, nicht weil sie nicht intelligent genug ist, sondern weil ihr engineering-arbeitsmethoden fehlen. Harness diszipliniert und standardisiert das Verhalten der KI durch die Einführung eines externen Frameworks und verwandelt KI von "jemandem, der Code schreiben kann" in "jemanden, der im Engineering-System arbeitet".

MCPlato's Multi-Session-Architektur, ClawMode-Beobachtbarkeit und Mensch-KI-Kollaborations-Design stimmen mit der Philosophie von Harness überein. Diese Art von Engineering-Denken könnte der Schlüssel zur tatsächlichen Implementierung von KI-Agenten sein.

Für die KI-Industrie 2025 könnte dies eine Wasserscheide sein: Teams, die Engineering-Ansätze beherrschen, werden KI-Agenten von der Demo-Umgebung in die Produktionsumgebung bringen können. Teams, die nur Modellfähigkeiten verfolgen, könnten feststellen, dass sie auf der Stelle treten.


Dieser Artikel basiert auf Anthropic's Engineering-Blog vom März 2025 und verwandten technischen Analysen.