AI agents documentsagentic workflowdocument corruptionAI agents corrupt documents over long tasksMicrosoft DELEGATE-52 benchmark results

Microsoft-Studie: KI-Agenten korrumpieren 25 % der Dokumente nach 20 Schritten

13 Mai 20266 Min. LesezeitAlex Drover

// IN DIESEM ARTIKEL

01Was passiert ist 02Technische Analyse 03Wer betroffen ist 04Handlungsempfehlungen für die KI-Entwicklung 05Wichtigste Erkenntnisse 06Häufig gestellte Fragen

Jeder Engineering-Lead, der in den letzten zwölf Monaten ein Pilotprojekt für einen „agentischen Workflow" genehmigt hat, sollte sich heute eine Stunde Zeit nehmen und das hier lesen. Microsofts eigenes Forschungsteam hat etwas in Zahlen gefasst, was viele Platform-Engineers bereits ahnten: Übergibt man einem Frontier-Modell eine lang laufende Dokumentenaufgabe und lässt es allein arbeiten, kommt man zu Ergebnissen zurück, die schlicht unbrauchbar sind. Nicht ein bisschen unbrauchbar. Ein Viertel der Datei fehlt oder ist fehlerhaft.

Was passiert ist

Am Montagabend veröffentlichten drei Microsoft-Research-Wissenschaftler – Philippe Laban, Tobias Schnabel und Jennifer Neville – ein Preprint mit einem Titel, der nichts beschönigt: „LLMs Corrupt Your Documents When You Delegate." Wie The Register berichtete, entwickelte das Team einen Benchmark namens DELEGATE-52, der mehrstufige Workflows in 52 Berufsdomänen simuliert – von der Programmierung über Kristallographie bis hin zu Musiknotation.

Die Ergebnisse sind ernüchternd. Frontier-Modelle – konkret Gemini 3.1 Pro, Claude 4.6 Opus und GPT 5.4 – verlieren durchschnittlich 25 Prozent des Dokumenteninhalts nach 20 delegierten Interaktionen. Die durchschnittliche Degradierung über alle getesteten Modelle beträgt 50 Prozent. Die Forscher legten den „Bereit"-Schwellenwert bei mindestens 98 Prozent Integrität nach 20 Interaktionen fest. Von 52 Domänen schaffte genau eine diesen Wert: Python-Programmierung.

Der beste Kandidat, Google Gemini 3.1 Pro, war in 11 von 52 Domänen einsatzbereit. Katastrophale Korrumpierung – definiert als Benchmark-Score von 80 Prozent oder weniger – trat in mehr als 80 Prozent der Modell-/Domänenkombinationen auf. Der Test in der Buchhaltungsdomäne ist besonders anschaulich: Das Ausgangsdokument ist das Hauptbuch von Hack Club, einer gemeinnützigen Organisation. Die Aufgabe besteht darin, es in Kategoriedateien aufzuteilen und diese chronologisch wieder zusammenzuführen. Simpel, praxisnah, die Art von Aufgabe, die ein Junior-Analyst an einem Dienstagmorgen erledigt. Die Modelle scheiterten dabei.

Das Team schloss außerdem vier GPT-Varianten (5.4, 5.2, 5.1 und 4.1) in einen agentischen Rahmen mit Datei-Lese-, Schreib- und Code-Ausführungsfunktionen ein. Werkzeuge machten die Ergebnisse schlechter, nicht besser – sie fügten bis zum Simulationsende eine durchschnittliche Degradierung von 6 Prozent hinzu.

Technische Analyse

Das Interessante ist nicht, dass Modelle versagen. Es ist, wie sie versagen. Fehler schleichen sich nicht linear ein. Sie explodieren. Die Forscher stellten fest, dass Korrumpierung, wenn sie einsetzt, in einer einzigen Runde-Trip-Interaktion 10 bis 30 Integritätspunkte auslöscht. Die stärkeren Modelle vermeiden kleine Fehler nicht besser als schwache. Sie verschieben den kritischen Ausfall auf eine spätere Runde und erleben ihn dann auf einmal.

Dieser Unterschied ist für alle relevant, die Evaluierungs-Pipelines gestalten. Wenn Ihr Abnahmetest zwei Iterationen durchläuft und die Ausgabequalität prüft, werden Sie ein Modell ausliefern, das produktionsbereit wirkt – und dann in Woche drei des Echtbetriebs abstürzt. Das Paper macht dies explizit: Die Leistung nach zwei Interaktionen sagt nichts über die Leistung nach 20 aus. Kurzzeithorizont-Evaluierungen sind aktiv irreführend. Ich habe genau dieses Muster bei Produktionsvorfällen erlebt, bei denen ein Modell in einer Sandbox beeindruckend demonstriert wurde und dann über ein Wochenende unbeaufsichtigt laufend den Zustand still und leise korrumpierte.

Es gibt auch eine qualitative Aufspaltung der Fehlerart. Schwächere Modelle löschen Inhalte. Frontier-Modelle korrumpieren sie. Aus Sicht der Datenintegrität ist Korrumpierung schlimmer. Löschung fällt auf. Man bemerkt eine fehlende Zeile. Korrumpierung ist lautlos: eine vertauschte Ziffer in einem Hauptbuch, ein umbenannter Variablenname, ein Akkord in der falschen Tonart. Die Art von Fehler, der bei einem Audit auftaucht, nicht während der Qualitätssicherung.

Dass agentische Rahmenwerke die Dinge verschlechtern, ist die bittere Pointe. Dem Modell Werkzeuge zu geben (Datei-I/O, Code-Ausführung) verbessert die DELEGATE-52-Werte nicht. Es verschlechtert sie um weitere 6 Prozent. Das widerspricht dem gesamten Marketing-Versprechen hinter Produkten wie Claude Cowork, das Anthropic als autonome Erledigung von Aufgaben auf Computern, lokalen Dateien und Anwendungen beschreibt, sowie Microsoft 365 Copilot, der als Lösung für komplexe, mehrstufige Recherchen über Arbeitsdaten und das Web angepriesen wird. Das Versprechen der Anbieter und die eigene Forschung der Anbieter stehen nun in offenem Widerspruch zueinander.

Wer betroffen ist

Laut Deloitte geben Unternehmen durchschnittlich 36 Prozent ihrer digitalen Budgets für KI-Automatisierung aus. Bei einem Team mit einem digitalen Budget von 10 Millionen Euro fließen damit 3,6 Millionen Euro in Systeme, die laut Microsofts eigenen Wissenschaftlern Dokumente in 80 Prozent der simulierten Lang-Lauf-Bedingungen korrumpieren. Das ist kein Rundungsfehler. Das ist der gesamte Platform-Engineering-Posten bei den meisten mittelgroßen Betreibern.

Am stärksten gefährdet sind die Teams, die dem Agenten-Narrativ am meisten geglaubt haben. Fintech-Back-Office-Automatisierung. iGaming-Compliance-Workflows, bei denen eine Aufsichtsbehörde einen unveränderlichen Prüfpfad erwartet. Ad-Tech-Abgleichsjobs, die nächtlich laufen und Finanzdaten berühren. Alles, bei dem das LLM ein Artefakt produziert, dem nachgelagerte Systeme ohne menschliche Kontrolle vertrauen.

Meine Einschätzung: In den nächsten 90 Tagen wird es eine stille Welle von Post-Mortems in Unternehmen geben, die Agenten in die Buchhaltung, die Vertragsprüfung und das Berichtswesen eingeführt haben. Teams, mit denen ich im Zahlungsabgleich gearbeitet habe, haben eine klare Regel: Jede automatisierte Mutation eines Hauptbuchs erfordert danach einen deterministischen Abgleich. Die Unternehmen, die diesen Schritt übersprungen haben, um „den Agenten alles von Anfang bis Ende erledigen zu lassen", werden in diesem Quartal ihren CFO anrufen müssen.

Die unbequeme Wahrheit: Die Anbieter werden ihr Marketing nicht verlangsamen. Die GPT-Familie von OpenAI stieg in 16 Monaten von 14,7 Prozent auf 71,5 Prozent bei der Benchmark-Performance – und auf diese Kurve zeigen die Verkaufspräsentationen. Aber DELEGATE-52 misst etwas anderes: nicht die Fähigkeit bei einem einzelnen Prompt, sondern die Integrität über 20 verkettete Prompts. Die Fähigkeiten eilen voraus. Die Zuverlässigkeit über die Zeit folgt nicht.

Handlungsempfehlungen für die KI-Entwicklung

Wenn Sie im nächsten Quartal etwas Agentisches ausliefern, zwingt das Paper folgende Punkte auf Ihre Roadmap.

Erstens: Werfen Sie Zwei-Schuss-Evaluierungen über Bord. Alles, was Sie Kunden präsentieren, benötigt eine Langzeithorizont-Evaluierung, die mindestens 20 verkettete Interaktionen mit repräsentativen Dokumenten durchführt. Wenn Sie noch keine haben, bauen Sie sie in diesem Sprint. Die DELEGATE-52-Methodik liefert Ihnen die Vorlage.

Zweitens: Beschränken Sie Agenten auf Python-artige Probleme. Die einzige Domäne, die den Bereitschaftsschwellenwert erreichte, war die Programmierung. Das ist kein Zufall. Code hat einen Compiler. Code hat Tests. Code hat eine deterministische Verifikation. Wenn Ihrer Aufgabe ein Orakel fehlt, das sagen kann „Diese Ausgabe ist strukturell gültig", fliegen Sie blind. Bauen Sie zuerst das Orakel, dann lassen Sie den Agenten darin operieren.

Drittens: Versionieren Sie alles, was der Agent berührt. Behandeln Sie Agenten-Ausgaben wie nicht vertrauenswürdige Benutzereingaben. Erstellen Sie vor jeder Interaktion einen Snapshot des Dokuments, vergleichen Sie danach den Diff und verlangen Sie menschliche oder regelbasierte Genehmigung für jede Änderung, die einen Schwellenwert überschreitet. Ein Abfall von 10 bis 30 Punkten in einem einzigen Round-Trip ist erkennbar, wenn man danach Ausschau hält.

Viertens: Seien Sie skeptisch gegenüber werkzeuggestützten Rahmenwerken. Die Standardannahme in der Branche ist, dass das Modell durch Code-Ausführung und Datei-I/O besser wird. Die Daten sagen das Gegenteil für lange Workflows. Wenn Sie MCP-basierte Integrationen oder ähnliche Agenten-Frameworks evaluieren, behandeln Sie Werkzeugzugriff als zusätzliche Angriffsfläche für Fehler – nicht als kostenloses Zuverlässigkeits-Upgrade.

Fünftens: Schreiben Sie den Kill-Switch, bevor Sie die Pressemitteilung zur Markteinführung veröffentlichen. Fazit: Kein agentischer Workflow wird ohne einzeiligen Rollback und eine Integritätsprüfung ausgeliefert, die unabhängig vom Agenten selbst nach einem festen Zeitplan läuft.

Wichtigste Erkenntnisse

Frontier-Modelle verlieren 25 Prozent des Dokumenteninhalts nach 20 delegierten Interaktionen; nur Python-Programmierung erfüllte den 98-Prozent-Bereitschaftsschwellenwert in 52 getesteten Domänen.
Fehler sind katastrophal und stoßartig – ein einziger Round-Trip löscht 10 bis 30 Integritätspunkte aus, was Kurzzeithorizont-Evaluierungen aktiv irreführend macht.
Agentische Rahmenwerke mit Datei-I/O und Code-Ausführung verschlechterten die Ergebnisse um weitere 6 Prozent und widersprechen damit dem Kernversprechen hinter Copilot-artigen Produkten.
Da Unternehmen 36 Prozent ihrer digitalen Budgets in KI-Automatisierung investieren, ist die Lücke zwischen Anbieter-Marketing und Microsofts eigener Forschung nun ein Risiko auf Beschaffungsebene.
Liefern Sie Langzeithorizont-Evaluierungen, deterministische Orakel, Snapshot-und-Diff-Schutzmaßnahmen und einen getesteten Rollback, bevor ein Agent ein Dokument berührt, dem nachgelagerte Systeme vertrauen.

Häufig gestellte Fragen

F: Was ist der DELEGATE-52-Benchmark?

DELEGATE-52 ist ein Microsoft-Research-Benchmark, der mehrstufige Wissensarbeit in 52 Berufsdomänen simuliert – darunter Programmierung, Kristallographie, Buchhaltung und Musiknotation. Er misst, wie gut ein LLM die Dokumentenintegrität über 20 verkettete delegierte Interaktionen bewahrt, anstatt eine einzelne Prompt-Antwort zu bewerten.

F: Warum verschlechterte der agentische Werkzeugeinsatz die Modellleistung?

Als die vier getesteten GPT-Varianten über einen einfachen Rahmen mit Datei-Lese-, Schreib- und Code-Ausführungsfunktionen ausgestattet wurden, verursachten sie bis zum Ende der Simulation eine zusätzliche durchschnittliche Degradierung von 6 Prozent. Das Paper legt nahe, dass Werkzeugzugriff die Angriffsfläche für sich verstärkende Fehler vergrößert, anstatt Modellen zu helfen, sich bei lang laufenden Aufgaben selbst zu korrigieren.

F: Sollten Teams aufhören, mit KI-Agenten zu entwickeln?

Nein, aber sie sollten den Anwendungsbereich einschränken. Die einzige Domäne, die den Bereitschaftsschwellenwert erreichte, war Python-Programmierung – dort existiert deterministische Verifikation. Teams sollten Agenten auf Aufgaben mit starken Orakeln (Compiler, Tests, Schema-Validatoren) beschränken und Langzeithorizont-Evaluierungen, Snapshot-Diffs und Rollback-Pfade hinzufügen, bevor sie Agenten unbeaufsichtigt Dokumente verändern lassen.

Alex Drover

RiverCore Analyst · Dublin, Ireland

// RELATED ARTICLES

Morgan Stanleys 50-Basispunkte-Kryptogebühr setzt Coinbase unter Druck

Morgan Stanley führt eine 50-Basispunkte-Kryptogebühr auf E*Trade ein und unterbietet damit Schwab und Coinbase. Was das für Börsenmargen, Custody-Einnahmen und die nächsten 90 Tage bedeutet.

Chile führt 20% GGR-Steuer im Online-Wetten-Gesetz ein

Chiles Senat hat 15 Tage, um ein lang blockiertes Online-Wetten-Gesetz voranzutreiben. Die 20% GGR-Steuer ist die Schlagzeile – doch die Compliance-Anforderungen sind das eigentliche Problem für Betreiber.

Die Quelle, die keine war: Eine Anmerkung zum Zitieren von Bot-Walls als Nachrichtenquellen

Die uns vorliegende Quelle enthält null Fakten: Es handelt sich um eine Bot-Detection-Seite. Warum das wichtiger ist als der fehlende Artikel selbst.