platform engineeringincident reductionMTTR improvementKrafton PUBG incident reduction platform workreduce on-call incidents without AI

Krafton сократил инциденты на 77% без AI-магии — только платформенная инженерия

18 июн 20267 мин. чтенияAlex Drover

// В ЭТОЙ СТАТЬЕ

01Цифры 02Что действительно нового 03Что уже заложено в цену для инженерных команд 04Контрарный взгляд 05Ключевые выводы 06Часто задаваемые вопросы

Каждый дежурный инженер, наблюдавший, как дашборд краснеет в 3 часа ночи, знает правду, которую никто не скажет вслух на вендорском кейноте: разница между пятиминутным сбоем и аварией на первых полосах газет почти никогда не определяется инструментами. Krafton, сеульская студия, создавшая PUBG: Battlegrounds, только что представила доказательство. Число инцидентов упало со 107 в 2024 году до 24 в 2026-м, а среднее время восстановления сократилось с 53,5 минуты до 10,3. Вот заголовок, и ИИ-агенты здесь почти ни при чём.

Цифры

Задержимся на Krafton чуть дольше, потому что цифры нестандартные. Как сообщил TechTarget с сессий DASH от Datadog 10 июня, команда Джунхуна Кима также сократила время обнаружения с 8,8 минуты до 1,6. Улучшение обнаружения в 5,5 раза, восстановления — в 5,2 раза, и сокращение числа инцидентов в 4,5 раза. Для игры с миллионами одновременных пользователей каждая из этих минут транслируется в выручку, возвраты средств и репутационный ущерб в социальных сетях.

Для сравнения: SRE-команды, с которыми я работал на европейских iGaming-платформах, считают MTTD менее двух минут для сложной распределённой системы практически нижней границей. Обнаруживать быстрее можно, но только ценой потопа ложных срабатываний. То, что Krafton вышел на 1,6 минуты при одновременном сокращении числа инцидентов, — более сложное достижение. Это означает, что качество сигнала выросло одновременно со скоростью реакции.

Показатель MTTR заслуживает отдельного внимания. Переход с 53,5 до 10,3 минуты — это кривая, которую обычно видишь только когда команда избавляется от хрупкого процесса деплоя. По словам Кима, девять лет совершенствования, последним шагом которых стала консолидация пяти инструментов наблюдаемости в один — Datadog. Слияние пяти инструментов в один хорошо смотрится на слайде. На практике, по моему опыту, это занимает от двенадцати до восемнадцати месяцев и ломает несколько дашбордов по пути. Именно девять лет накопленного контекста сделали это возможным.

Есть ещё Getswish — оператор шведского платёжного приложения Swish. Авария 2021 года попала в национальную прессу раньше, чем аутсорсинговый IT-провайдер вообще узнал о ней. К концу 2024 года сопоставимый инцидент был обнаружен и устранён внутренней командой за пять часов. Пять часов — не повод для гордости в iGaming, но для платёжной инфраструктуры, работавшей три года назад на аутсорсинговом операционном контракте, это структурное изменение в том, кто контролирует радиус поражения. Команда Йонаса Кронхольм-Лундина достигла этого, перестроив доставку кода на GitOps и пересмотрев практику работы с инцидентами по книге Google об SRE. Никаких агентов. Никакой магии.

Что действительно нового

Datadog представил более 100 обновлений на DASH. Два из них руководители инженерных команд должны изучить в первую очередь: Runtime Prioritization Engine с автоматической разметкой уязвимостей безопасности и функция Auto-Processing в составе Observability Pipelines. Оба представляют собой AI-классификаторы, работающие с данными, которые у вас уже есть. Krafton также использует MCP-сервер Datadog и новый CLI Pup, чтобы дать агентам кодирования доступ к контексту инцидентов из Datadog, Kubernetes, Jira и Slack.

Последний момент — это и есть по-настоящему новое. MCP плюс CLI означает, что агенты могут читать состояние инцидента из четырёх канонических источников без кастомного интеграционного слоя. Для команд, которые последние два года скотчем клеили Slack-ботов к вебхукам PagerDuty, это значимый примитив. При этом он по-прежнему строго вспомогательный. Ким был однозначен: межисточниковая отладка, составление постмортемов, генерация runbook-ов, документация при передаче дежурства. Ничто из этого не касается продакшена.

Цитата Кима об автономии — та, которую стоит прибить на стену. «Сегодня ИИ всё ещё может принимать неверные решения во время инцидентов, и если он предпримет критическое действие, которое сложно откатить, риск для надёжности продакшена слишком высок». Это старший инженер в игровой компании объясняет в 2026 году, почему его команда не передала руль агенту. Слово в слово это совпадает с тем, что платформенные лиды в финтехах, с которыми я работал, говорили приватно последние восемнадцать месяцев.

Вклад Getswish в новый сценарий работы — структурный. Их runbook-и теперь организованы вокруг петли OODA — системы принятия решений, заимствованной из военной авиации. Observe, orient, decide, act (наблюдай, ориентируйся, принимай решение, действуй). Смысл OODA в реагировании на инциденты в том, что она даёт агенту — человеку или нет — устойчивую декомпозицию текущего шага. Если вы когда-нибудь захотите передать части петли автоматике, явная её формулировка — обязательное условие. Фреймворк Кронхольм-Лундина верен: кюрированные runbook-и и постмортемы — это обучающие данные для любого агента, которого вы примете следующим.

Что уже заложено в цену для инженерных команд

Рынок уже учёл фрейминг «ИИ-ассистент, а не ИИ-оператор». Об этом говорит каждый платформенный вендор. Что не учтено — так это объём фундаментальной работы, которую нужно проделать, прежде чем какая-либо помощь начнёт окупаться.

Снова посмотрите на Krafton: девять лет совершенствования процессов, консолидация инструментов, метаданные владения, встроенные в кодовые пути, ограничители серьёзности — и только потом MCP плюс агенты кодирования поверх. Агенты — это последние 10% стека. Они генерируют ценность потому, что нижние 90% чистые. Если ваши инциденты по-прежнему разбираются тем, кто громче всех кричит в Slack, добавление агента сверху будет уверенно производить неверные постмортемы — только быстрее.

Ещё один недообсуждаемый момент — экономика гигиены данных. Брайан Пирсон из US Bank рассказал на DASH, что не каждый лог получает место первого класса в бэкенде Datadog. Остальное маршрутизируется в S3 через Observability Pipelines из соображений стоимости хранения. Это скучный, правильный ответ, которого в итоге потребует каждый CFO. Счета за наблюдаемость имеют свойство переходить из «управляемых» в «эквивалент бюджета двух инженеров» между одним кварталом и следующим, а многоуровневая маршрутизация в объектное хранилище — стандартный выход. Пайплайны OpenTelemetry делают это портируемым, если вы хотите сохранить гибкость при смене вендоров.

Моё мнение: агентные функции станут базовым требованием через 18 месяцев, и никто не вспомнит, кто из вендоров выпустил их первым. Что по-прежнему будет иметь значение — построила ли ваша платформенная команда необходимый субстрат под ними.

Контрарный взгляд

Контрарная интерпретация состоит в том, что Krafton и Getswish — это выжившие. Обе компании имели бюджет, инженерную культуру и в случае Krafton почти десятилетие дистанции, чтобы прийти к этому состоянию. У большинства команд, читающих разбор DASH, нет девяти лет. Есть CFO, спрашивающий, почему счёт за наблюдаемость растёт на 40% в год, и CTO, видевший демо с агентом и желающий знать, когда инциденты начнут чинить себя сами.

Для таких команд честным ответом может быть то, что ИИ-ассистент поверх посредственной платформы всё равно лучше, чем ничего. Эрик Свонсон, SRE в MagicSchool AI в Денвере, прямо озвучил опасение: разработчики передают дисциплину работы с логами агентам, а инженеры теряют навыки, которые оттачивались критическим мышлением. Он прав в своих опасениях. Но контрпозиция такова: не каждый проект построит платформу обработки инцидентов уровня Krafton, и компетентный агентный минимум может повысить медианного оператора сильнее, чем он снизит потолок для лучших.

Неудобный вывод: большинство инженерных организаций пропустят платформенный фундамент, прикрутят агентов и объявят задачу выполненной. Вендоры это знают. Именно поэтому в маркетинге на первом плане — автономность, а в кейсах — платформенная инженерия.

Ключевые выводы

Сначала — платформа. Сокращение инцидентов Krafton на 77% и улучшение MTTR в 5 раз стало результатом девяти лет работы над процессами, а не агентов, добавленных в конце.
MCP плюс CLI — новый интеграционный примитив. MCP-сервер Datadog и Pup CLI позволяют агентам читать контекст инцидентов из наблюдаемости, Kubernetes, Jira и Slack без специального клея. Стоит провести proof-of-concept в этом квартале.
Держите агентов на вспомогательной стороне. Постмортемы, runbook-и, документация передачи дежурства, межисточниковая отладка. Действия, изменяющие продакшен, остаются под контролем человека, пока откат не станет дешёвым.
Структурируйте runbook-и и для людей, и для агентов. Runbook-и Getswish на основе петли OODA одновременно служат обучающим материалом. Кюрируйте сейчас — используйте позже.
Распределите данные наблюдаемости по уровням до того, как счёт сделает это за вас. US Bank маршрутизирует менее ценные логи в S3 через Observability Pipelines. Это стандартная практика сейчас, а не оптимизация на потом.

Часто задаваемые вопросы

В: Именно ли ИИ-агенты обеспечили сокращение инцидентов у Krafton?

Нет. Джунхун Ким прямо заявил, что улучшения стали результатом платформы реагирования, которую Krafton строил девять лет, а не ИИ. Агенты в настоящее время помогают с межисточниковой отладкой, составлением постмортемов и документацией дежурства, но производственные решения по-прежнему принимают люди.

В: Что именно Datadog выпустил на DASH 2026?

Более 100 обновлений, из которых наиболее заметны: новый Runtime Prioritization Engine с автоматической разметкой уязвимостей безопасности, функция Auto-Processing для управления логами в составе Observability Pipelines, а также Pup CLI, который в паре с MCP-сервером Datadog даёт агентам кодирования структурированный доступ к контексту инцидентов.

В: Стоит ли инженерным командам переходить на агентное управление инцидентами прямо сейчас?

Только поверх чистого платформенного фундамента. И Krafton, и Getswish подчеркнули, что кюрированные runbook-и, метаданные владения, ограничители серьёзности и GitOps-доставка должны существовать в первую очередь. Агенты усиливают всё, что есть под ними, — включая сломанные части.

Alex Drover

RiverCore Analyst · Dublin, Ireland

// ПОХОЖИЕ СТАТЬИ