AI agents documentsagentic workflowdocument corruptionAI agents corrupt documents over long tasksMicrosoft DELEGATE-52 benchmark results

Дослідження Microsoft: AI-агенти пошкоджують 25% вмісту документів за 20 кроків

13 тра 20266 хв. читанняAlex Drover

// У ЦІЙ СТАТТІ

01Що сталося 02Технічна анатомія 03Хто постраждає 04Практичний план для AI-розробки 05Ключові висновки 06Часті запитання

Кожен технічний керівник, який за останні дванадцять місяців схвалив пілот «агентного workflow», має виділити сьогодні годину і прочитати це. Власна дослідницька команда Microsoft підтвердила цифрами те, про що багато платформних інженерів уже здогадувалися: дайте фронтирній моделі тривале завдання з документом, відійдіть — і повернетеся до сміття. Не трохи сміття. Чверть файлу — втрачена або зіпсована.

Що сталося

У понеділок увечері троє науковців Microsoft Research — Philippe Laban, Tobias Schnabel і Jennifer Neville — опублікували препринт із назвою, яка не приховує суті: «LLMs Corrupt Your Documents When You Delegate». Як повідомив The Register, команда створила бенчмарк DELEGATE-52, який імітує багатокрокові workflow у 52 професійних галузях — від написання коду до кристалографії та нотного запису.

Результати невтішні. Фронтирні моделі — Gemini 3.1 Pro, Claude 4.6 Opus і GPT 5.4 — у середньому втрачають 25 відсотків вмісту документа за 20 делегованих взаємодій. Середня деградація по всіх протестованих моделях становить 50 відсотків. Дослідники встановили поріг «готовності» на рівні 98 відсотків або вище цілісності після 20 взаємодій. З 52 галузей лише одна подолала цю планку: програмування на Python.

Найкращий результат показав Google Gemini 3.1 Pro — він був готовий для 11 із 52 галузей. Катастрофічне пошкодження, визначене як результат бенчмарку 80 відсотків або нижче, зафіксоване більш ніж у 80 відсотках комбінацій моделі та галузі. Показовим є тест у галузі бухгалтерського обліку: вихідний документ — книга обліку Hack Club, некомерційної організації, завдання — розділити її на файли за категоріями та об'єднати назад у хронологічному порядку. Нудно, реалістично, саме те, що молодший аналітик робить у вівторок. Моделі провалили це завдання.

Команда також підключила чотири варіанти GPT (5.4, 5.2, 5.1 і 4.1) до агентного обв'язування з читанням файлів, записом і виконанням коду. Інструменти погіршили ситуацію, а не покращили, додавши в середньому 6 відсотків деградації до кінця симуляції.

Технічна анатомія

Цікаве тут не те, що моделі помиляються. А те, як вони помиляються. Помилки не накопичуються поступово. Вони вибухають. Дослідники виявили, що коли виникає пошкодження, воно, як правило, знищує від 10 до 30 пунктів цілісності за одну взаємодію. Сильніші моделі не краще уникають дрібних помилок порівняно зі слабкими. Вони відкладають критичний збій на пізніший раунд, а потім зазнають його одразу.

Це розмежування важливе для тих, хто проектує пайплайни оцінювання. Якщо ваш приймальний тест виконує дві ітерації і оцінює якість виводу, ви випустите модель, яка виглядає готовою до продакшену, а потім впаде на третьому тижні реального використання. У статті це сформульовано прямо: продуктивність після двох взаємодій не передбачає продуктивності після 20. Оцінювання на короткому горизонті активно вводить в оману. Я особисто бачив саме такий патерн у виробничих інцидентах, коли модель чудово демонструвалася в пісочниці, а потім тихо псувала стан, коли працювала без нагляду протягом вихідних.

Також є якісний поділ у режимах збоїв. Слабші моделі видаляють вміст. Фронтирні моделі його пошкоджують. З точки зору цілісності даних, пошкодження гірше. Видалення помітне. Ви побачите відсутній рядок. Пошкодження тихе: переставлена цифра в книзі обліку, замінена назва змінної, акорд написаний у неправильній тональності. Тип помилки, яка виявляється під час аудиту, а не під час QA.

Те, що агентне обв'язування погіршує ситуацію, — це кульмінація. Надання моделі інструментів (файловий I/O, виконання коду) не покращує результати DELEGATE-52. Воно погіршує їх ще на 6 відсотків. Це суперечить усій маркетинговій передумові таких продуктів, як Claude Cowork, який Anthropic описує як автономне виконання завдань на комп'ютерах, локальних файлах і застосунках, і Microsoft 365 Copilot, позиціонованого як здатного вирішувати складні багатокрокові дослідницькі завдання у ваших робочих даних і мережі. Торговельний пітч постачальника і власне дослідження цього постачальника тепер відкрито суперечать одне одному.

Хто постраждає

За даними Deloitte, організації витрачають у середньому 36 відсотків своїх цифрових бюджетів на AI-автоматизацію. Для команди з цифровим бюджетом у 10 мільйонів євро це 3,6 мільйона євро, що надходять до систем, які, за словами власних науковців Microsoft, пошкоджують документи в 80 відсотках симульованих тривалих умов. Це не похибка округлення. Це весь рядок платформного інжинірингу у більшості операторів середнього розміру.

Найбільш вразливі ті команди, які найбільше повірили в концепцію агентів. Автоматизація бек-офісу у фінтех. Compliance-workflow у iGaming, де регулятор очікує незмінного журналу аудиту. Завдання звірки в ad-tech, які виконуються щоночі і торкаються фінансових даних. Все, де LLM виробляє артефакт, якому довіряють нижчі за рівнем системи без людського перегляду.

Моя думка: наступні 90 днів принесуть тиху хвилю постмортемів у компаніях, які запустили агентів у бухгалтерію, перевірку контрактів і звітність. Команди, з якими я працював над звіркою платежів, мають жорстке правило: будь-яка автоматизована зміна книги обліку вимагає детерміністичного проходу звірки після цього. Ті, хто пропустив цей крок, щоб «дозволити агенту впоратися повністю», цього кварталу будуть телефонувати своєму CFO.

Незручна правда: постачальники не збираються сповільнювати маркетинг. Родина GPT від OpenAI зросла з 14,7 відсотка до 71,5 відсотка за результатами бенчмарків за 16 місяців, і саме цей графік фігурує в торговельних презентаціях. Але DELEGATE-52 вимірює щось інше: не здатність на одному запиті, а цілісність протягом 20 послідовних. Здатність стрімко зростає. Надійність у часі за нею не встигає.

Практичний план для AI-розробки

Якщо ви випускаєте щось агентне наступного кварталу, ось що стаття примушує включити до вашого роадмапу.

По-перше, відмовтеся від дворазового оцінювання. Все, що ви виводите до клієнтів, потребує оцінювання на довгому горизонті з щонайменше 20 послідовними взаємодіями на репрезентативних документах. Якщо такого немає — створіть його протягом цього спринту. Методологія DELEGATE-52 дає вам шаблон.

По-друге, обмежуйте агентів завданнями, подібними до Python. Єдина галузь, яка подолала поріг готовності, — програмування. Це не збіг. Код має компілятор. Код має тести. Код має детерміністичну верифікацію. Якщо у вашого завдання немає оракула, який може сказати «цей вивід структурно валідний», ви летите всліпу. Спочатку побудуйте оракула, а потім дозвольте агенту діяти всередині нього.

По-третє, версіонуйте все, до чого торкається агент. Ставтеся до виводів агента як до ненадійного введення від користувача. Робіть знімок документа перед кожною взаємодією, порівнюйте після, і вимагайте людського або заснованого на правилах схвалення будь-якої зміни, що перевищує поріг. Падіння на 10–30 пунктів за одну взаємодію виявляється, якщо ви його відстежуєте.

По-четверте, ставтеся скептично до обв'язувань з інструментами. Загальноприйнята думка в галузі — що надання моделі виконання коду та файлового I/O робить її кращою. Дані кажуть протилежне для тривалих workflow. Якщо ви розглядаєте інтеграції на базі MCP або подібні агентні фреймворки, сприймайте доступ до інструментів як додаткову поверхню для збоїв, а не як безкоштовне підвищення надійності.

По-п'яте, напишіть перемикач аварійного відключення до прес-релізу про запуск. Вердикт: жоден агентний workflow не виходить у продакшн без однокомандного відкату та перевірки цілісності, яка виконується за розкладом незалежно від самого агента.

Ключові висновки

Фронтирні моделі втрачають 25 відсотків вмісту документа за 20 делегованих взаємодій; лише програмування на Python досягло порогу готовності в 98 відсотків серед 52 протестованих галузей.
Збої є катастрофічними та вибуховими — втрата від 10 до 30 пунктів цілісності за одну взаємодію, що робить оцінювання на короткому горизонті активно оманливим.
Агентні обв'язування з файловим I/O та виконанням коду погіршили ситуацію ще на 6 відсотків, що суперечить ключовому пітчу таких продуктів, як Copilot.
Оскільки організації спрямовують 36 відсотків цифрових бюджетів на AI-автоматизацію, розрив між маркетингом постачальників і власними дослідженнями Microsoft став ризиком на рівні закупівель.
Запровадьте оцінювання на довгому горизонті, детерміністичні оракули, захисні механізми знімків та порівнянь, і протестований відкат перед тим, як будь-який агент торкнеться документа, якому довіряють нижчі за рівнем системи.

Часті запитання

П: Що таке бенчмарк DELEGATE-52?

DELEGATE-52 — це бенчмарк Microsoft Research, який імітує багатокрокову інтелектуальну роботу в 52 професійних галузях, включно з програмуванням, кристалографією, бухгалтерським обліком і нотним записом. Він вимірює, наскільки добре LLM зберігає цілісність документа протягом 20 послідовних делегованих взаємодій, а не оцінює відповідь на один запит.

П: Чому агентне використання інструментів погіршило продуктивність моделей?

Коли чотири протестовані варіанти GPT отримали доступ до читання файлів, запису та виконання коду через базове обв'язування, вони зазнали додаткової середньої деградації в 6 відсотків до кінця симуляції. У статті припускається, що доступ до інструментів розширює поверхню для накопичення помилок, а не допомагає моделям самостійно виправлятися при тривалих завданнях.

П: Чи повинні команди припинити розробку з AI-агентами на основі цих висновків?

Ні, але їм слід звузити сферу застосування. Єдина галузь, яка досягла готовності, — програмування на Python, де існує детерміністична верифікація. Команди повинні обмежувати агентів завданнями з надійними оракулами (компілятори, тести, валідатори схем) і додавати оцінювання на довгому горизонті, порівняння знімків і шляхи відкату перед тим, як дозволяти агентам змінювати документи без нагляду.

Alex Drover

RiverCore Analyst · Dublin, Ireland

// RELATED ARTICLES

Комісія Morgan Stanley 50bps щойно підпалила запал під Coinbase

Morgan Stanley запровадив комісію 50bps на E*Trade, підрізавши Schwab і Coinbase. Ось що це означає для маржі бірж, доходів від кастодії та наступних 90 днів.

Чилі встановлює 20% податок на GGR у прискореному законопроєкті про онлайн-ставки

Сенат Чилі має 15 днів для розгляду давно відкладеного законопроєкту про онлайн-ставки. Податок 20% GGR — це заголовок, але саме вимоги до відповідності стануть головним болем для операторів.

Джерело, якого не існує: нотатка про цитування бот-стін як новин

Джерело, надане для цього матеріалу, не містить жодного факту: це сторінка виявлення ботів. Ось чому це важливіше за відсутню статтю.