AI agents documentsagentic workflowdocument corruptionAI agents corrupt documents over long tasksMicrosoft DELEGATE-52 benchmark results

Исследование Microsoft: ИИ-агенты повреждают 25% содержимого документов за 20 шагов

13 май 20266 мин. чтенияAlex Drover

// В ЭТОЙ СТАТЬЕ

01Что произошло 02Техническая анатомия проблемы 03Кто пострадает 04Практическое руководство по разработке ИИ 05Ключевые выводы 06Часто задаваемые вопросы

Каждый технический руководитель, давший добро на пилотный запуск «агентного рабочего процесса» за последние двенадцать месяцев, должен выделить сегодня час и прочитать это. Собственная исследовательская группа Microsoft облекла в цифры то, что многие платформенные инженеры уже подозревали: поручите фронтирной модели длительную задачу с документами, отойдите — и вернётесь к мусору. Не к небольшому мусору. Четверть файла пропадёт или окажется неверной.

Что произошло

В понедельник вечером трое учёных Microsoft Research — Филипп Лабан, Тобиас Шнабель и Дженнифер Невилл — опубликовали препринт с названием, которое не скрывает главного: «LLMs Corrupt Your Documents When You Delegate». Как сообщил The Register, команда создала бенчмарк DELEGATE-52, симулирующий многоэтапные рабочие процессы в 52 профессиональных областях — от написания кода до кристаллографии и нотной записи.

Результаты неутешительны. Фронтирные модели — Gemini 3.1 Pro, Claude 4.6 Opus и GPT 5.4 — в среднем теряют 25 процентов содержимого документа за 20 делегированных взаимодействий. Среднее ухудшение по всем протестированным моделям составляет 50 процентов. Исследователи установили порог «готовности» на уровне 98 процентов или выше сохранности данных после 20 взаимодействий. Из 52 доменов его преодолел ровно один: программирование на Python.

Лучший результат показал Google Gemini 3.1 Pro — он оказался готов для 11 из 52 доменов. Катастрофическое повреждение, определённое как результат бенчмарка на уровне 80 процентов и ниже, наблюдалось более чем в 80 процентах комбинаций «модель/домен». Показательным примером служит тест в области бухгалтерии: исходный документ — бухгалтерская книга Hack Club, некоммерческой организации, — а задача состоит в том, чтобы разбить её на файлы по категориям и объединить обратно в хронологическом порядке. Скучно, реалистично, — именно то, чем занимается младший аналитик во вторник. Модели не справились.

Команда также подключила четыре варианта GPT (5.4, 5.2, 5.1 и 4.1) к агентному инструментарию с возможностью чтения файлов, записи и выполнения кода. Инструменты сделали всё хуже, а не лучше, добавив в среднем 6 процентов деградации к концу симуляции.

Техническая анатомия проблемы

Интересно не то, что модели ошибаются, а то, как именно они ошибаются. Ошибки не накапливаются линейно. Они взрываются. Исследователи обнаружили, что когда происходит повреждение, оно, как правило, уничтожает от 10 до 30 пунктов целостности за одно взаимодействие. Более сильные модели не допускают меньше мелких ошибок по сравнению со слабыми. Они откладывают критический сбой на более поздний раунд, а затем получают его за один раз.

Это различие важно для всех, кто проектирует конвейеры оценки. Если ваш приёмочный тест выполняет две итерации и оценивает качество вывода, вы выпустите модель, которая выглядит готовой к продакшену, а затем рухнет на третьей неделе реального использования. Авторы статьи прямо указывают на это: производительность после двух взаимодействий не предсказывает производительность после двадцати. Оценки с коротким горизонтом активно вводят в заблуждение. Я лично наблюдал этот паттерн в производственных инцидентах, когда модель великолепно показывала себя в песочнице и незаметно разрушала состояние, работая без надзора на выходных.

Существует также качественное разделение в характере сбоев. Слабые модели удаляют содержимое. Фронтирные модели искажают его. С точки зрения целостности данных искажение хуже. Удаление заметно: вы замечаете пропавшую строку. Искажение незаметно: переставленная цифра в бухгалтерской книге, переименованная переменная, аккорд, написанный в неправильной тональности. Такие ошибки всплывают во время аудита, а не во время QA.

То, что агентный инструментарий ухудшает результаты, — это и есть главный вывод. Предоставление модели инструментов (файловый ввод-вывод, выполнение кода) не улучшает результаты DELEGATE-52. Оно ухудшает их ещё на 6 процентов. Это противоречит всему маркетинговому посылу продуктов вроде Claude Cowork, который Anthropic описывает как автономное выполнение задач на компьютерах, с локальными файлами и приложениями, и Microsoft 365 Copilot, позиционируемого как инструмент для решения сложных многоэтапных исследовательских задач с рабочими данными и в вебе. Маркетинговые обещания вендора и собственные исследования того же вендора теперь открыто противоречат друг другу.

Кто пострадает

По данным Deloitte, организации тратят в среднем 36 процентов своих цифровых бюджетов на автоматизацию с помощью ИИ. Для команды с цифровым бюджетом в 10 миллионов евро это 3,6 миллиона евро, направленных на системы, которые, по данным собственных учёных Microsoft, повреждают документы в 80 процентах симулированных длительных сценариев. Это не погрешность округления. Это вся статья расходов на платформенную инженерию у большинства операторов среднего размера.

Наиболее уязвимы команды, которые больше всего поверили в нарратив об агентах. Автоматизация бэк-офиса в финтехе. Процессы обеспечения соответствия требованиям в iGaming, где регулятор ожидает неизменяемого журнала аудита. Задачи сверки в рекламных технологиях, выполняемые ночью и затрагивающие финансовые данные. Всё, где LLM создаёт артефакт, которому доверяют нижестоящие системы без проверки человеком.

Моё мнение: в ближайшие 90 дней внутри компаний, внедривших агентов в бухгалтерию, проверку контрактов и подготовку отчётности, пройдёт тихая волна разборов полётов. В командах, с которыми я работал по теме сверки платежей, действует жёсткое правило: любое автоматическое изменение бухгалтерской книги требует последующего детерминированного прохода сверки. Те, кто пропустил этот шаг, решив «пусть агент сделает всё сам», будут звонить своему финансовому директору в этом квартале.

Неудобная правда: вендоры не собираются замедлять маркетинг. Семейство GPT от OpenAI выросло с 14,7 процента до 71,5 процента по результатам бенчмарков за 16 месяцев, и именно эта кривая красуется в презентациях для клиентов. Но DELEGATE-52 измеряет нечто иное: не возможности на одном запросе, а целостность в цепочке из 20 запросов. Возможности стремительно растут. Надёжность с течением времени — нет.

Практическое руководство по разработке ИИ

Если вы выпускаете что-либо агентное в следующем квартале, вот что исследование вносит в ваш план работ.

Первое: откажитесь от двухшаговой оценки. Всё, что вы показываете клиентам, требует оценки с длинным горизонтом, включающей не менее 20 связанных взаимодействий на репрезентативных документах. Если у вас её нет — создайте в этом спринте. Методология DELEGATE-52 даёт вам шаблон.

Второе: ограничьте область применения агентов задачами, похожими на Python-разработку. Единственный домен, преодолевший порог готовности, — программирование. Это не совпадение. У кода есть компилятор. У кода есть тесты. У кода есть детерминированная верификация. Если у вашей задачи нет оракула, который может сказать «этот вывод структурно корректен», вы летите вслепую. Сначала создайте оракул, а потом позвольте агенту работать внутри него.

Третье: версионируйте всё, к чему прикасается агент. Относитесь к выводам агента как к недоверенным пользовательским данным. Делайте снимок документа перед каждым взаимодействием, сравнивайте после и требуйте одобрения человека или по правилам для любых изменений, превышающих порог. Падение на 10–30 пунктов за одно взаимодействие поддаётся обнаружению, если вы за этим следите.

Четвёртое: относитесь скептически к инструментально-расширенным агентным инструментариям. Отраслевое допущение по умолчанию состоит в том, что предоставление модели выполнения кода и файлового ввода-вывода улучшает её работу. Данные говорят об обратном для длительных рабочих процессов. Если вы рассматриваете интеграции на основе MCP или аналогичные агентные фреймворки, воспринимайте доступ к инструментам как дополнительную поверхность для сбоев, а не как бесплатное повышение надёжности.

Пятое: напишите аварийный выключатель до пресс-релиза о запуске. Вывод: ни один агентный рабочий процесс не выходит в продакшен без однокомандного отката и проверки целостности, выполняемой по расписанию независимо от самого агента.

Ключевые выводы

Фронтирные модели теряют 25 процентов содержимого документов за 20 делегированных взаимодействий; только программирование на Python преодолело порог готовности 98 процентов из 52 протестированных доменов.
Сбои носят катастрофический и взрывной характер: за одно взаимодействие теряется от 10 до 30 пунктов целостности, что делает оценку с коротким горизонтом активно вводящей в заблуждение.
Агентные инструментарии с файловым вводом-выводом и выполнением кода ухудшили результаты ещё на 6 процентов, опровергая ключевой посыл продуктов типа Copilot.
При том что организации направляют 36 процентов цифровых бюджетов на автоматизацию с помощью ИИ, разрыв между маркетингом вендоров и собственными исследованиями Microsoft превращается в риск на уровне закупок.
Внедрите оценки с длинным горизонтом, детерминированные оракулы, защиту на основе снимков и сравнений, а также проверенный откат до того, как агент прикоснётся к документу, которому доверяют нижестоящие системы.

Часто задаваемые вопросы

В: Что такое бенчмарк DELEGATE-52?

DELEGATE-52 — это бенчмарк Microsoft Research, симулирующий многоэтапную интеллектуальную работу в 52 профессиональных областях, включая программирование, кристаллографию, бухгалтерский учёт и нотную запись. Он измеряет, насколько хорошо LLM сохраняет целостность документа в цепочке из 20 делегированных взаимодействий, а не оценивает ответ на один запрос.

В: Почему использование агентных инструментов ухудшило результаты моделей?

Когда четырём тестируемым вариантам GPT был предоставлен доступ к чтению, записи файлов и выполнению кода через базовый инструментарий, к концу симуляции они получили дополнительную среднюю деградацию в 6 процентов. Авторы статьи предполагают, что доступ к инструментам расширяет поверхность для накопления ошибок, а не помогает моделям самокорректироваться при длительных задачах.

В: Должны ли команды прекратить разработку с ИИ-агентами на основании этих результатов?

Нет, но следует сузить область применения. Единственным доменом, достигшим порога готовности, было программирование на Python, где существует детерминированная верификация. Командам следует ограничивать агентов задачами с надёжными оракулами (компиляторы, тесты, валидаторы схем) и добавлять долгосрочную оценку, снимки с возможностью сравнения и пути отката до того, как агенты получат право изменять документы без надзора.

Alex Drover

RiverCore Analyst · Dublin, Ireland

// RELATED ARTICLES

Комиссия Morgan Stanley в 50 б.п. по криптовалюте ударила по Coinbase

Morgan Stanley установил комиссию 50 б.п. на E*Trade, обходя Schwab и Coinbase. Разбираемся, что это означает для маржи бирж, доходов от кастодии и ближайших 90 дней.

Чили вводит налог 20% на GGR в срочно принятом законопроекте об онлайн-ставках

Сенат Чили получил 15 дней на принятие давно застоявшегося законопроекта об онлайн-ставках. Налог 20% на GGR — главная новость, но основные потери операторов скрыты в требованиях к комплаенсу.

Источник, которого не существовало: заметка о цитировании бот-стен как новостей

Предоставленный источник содержит ноль фактов: это страница бот-детекции. Вот почему это важнее, чем сама отсутствующая статья.