Skip to content
RiverCore
Middleware OpsAI Автоматично Вирішує 80% Виробничих Інцидентів при GA
OpsAI SRE agentMiddleware observabilityAI automationMiddleware OpsAI auto-resolves production issuesagentic SRE production issue resolution

Middleware OpsAI Автоматично Вирішує 80% Виробничих Інцидентів при GA

6 тра 20267 хв. читанняSarah Chen

Middleware оголошує конкретну цифру для агентного SRE: понад 80 відсотків виробничих інцидентів вирішуються автоматично в клієнтських середовищах, а понад 90 відсотків — від виявлення до вирішення в бета-акаунтах. Це головні заяви, що стоять за загальною доступністю OpsAI від 5 травня 2026 року — AI-нативного SRE-агента від компанії з Сан-Франциско. Якщо ці цифри справджуються поза контрольованими тестами, це найагресивніша заява щодо автоматизації в сфері спостережуваності за цей рік.

Що Сталося

Middleware, випускник Y Combinator W23, оголосив про загальну доступність OpsAI, позиціонуючи його як SRE-агента, який виявляє, діагностує та усуває виробничі інциденти на всьому стеку застосунків. Згідно з PR Newswire, агент постачається з першокласним доступом до APM, RUM, логів, метрик інфраструктури та Kubernetes-телеметрії на OpenTelemetry-нативній платформі Middleware.

Концепція побудована навколо знайомої проблеми: чергові інженери витрачають майже 60 відсотків часу на пошук першопричин замість розробки функцій, жонглюючи 10 і більше інструментами моніторингу. Middleware посилається на прогноз Gartner, згідно з яким понад 50 відсотків підприємств впровадять AIOps та агентну автоматизацію до 2027 року. OpsAI — це ставка компанії на те, щоб охопити цей робочий процес від початку до кінця в межах однієї платформи, а не як шар клею між інструментами.

На момент запуску агент виконує чотири функції. Він проводить автоматизований аналіз першопричин, корелюючи трейси, логи, метрики та сесії фронтенду за лічені секунди, відстежуючи проблеми до конкретного рядка коду. Він генерує pull request-и через інтеграцію GitHub MCP із читанням у межах файлу та нульовим збереженням вихідного коду. Він пропонує два режими усунення несправностей Kubernetes: Auto RCA (пропонує виправлення) та Auto Fix (застосовує його безпосередньо), орієнтуючись на збої подів, витоки пам'яті та неправильні конфігурації. Він також отримує сторонні сповіщення від Datadog і Grafana без необхідності міграції — і саме цей рядок має змусити існуючих вендорів спостережуваності відчути дискомфорт.

OpsAI доступний за моделлю оплати за використання з 14-денним пробним періодом без кредитної картки. Middleware має сертифікати SOC 2 Type II, ISO 27001, HIPAA та GDPR і серед клієнтів називає Corgi Insurance, Eragon, Ace Turtle, Hotplate та Trademarkia. CEO Corgi Insurance Ніко Лакуа публічно заявив, що Middleware скоротив їхній час налагодження та вирішення інцидентів майже на 90 відсотків.

Технічна Архітектура

Цікавий архітектурний вибір тут — вертикалізація. Більшість агентних SRE-продуктів на ринку сьогодні розміщені поверх існуючих стеків спостережуваності та отримують дані через API, що означає затримки, ліміти запитів і втрату інформації при трансляції схем між форматами вендорів. OpsAI побудований на власному конвеєрі телеметрії Middleware, тому агент читає нативні структури даних безпосередньо. Middleware стверджує, що саме це забезпечує відповідь у 10 разів швидше, ніж у конкуруючих AI SRE-агентів. Джерело не розкриває порівняльний набір, профіль навантаження або те, що означає «час відповіді» — час до першої гіпотези чи час до застосованого виправлення, — а це суттєво різні метрики. Розумна оцінка: навіть якщо множник перебільшений утричі, архітектурний аргумент на користь першокласного доступу до телеметрії залишається в силі.

Процес генерації PR — це та частина, яка має привернути увагу досвідчених інженерів. OpsAI використовує інтеграцію GitHub Model Context Protocol із читанням у межах файлу, тобто агент завантажує лише ті файли, які потрібні для аналізу конкретного інциденту, і не зберігає жодного вихідного коду. Останнє важливо для всіх у регульованих галузях. Команда фінтех або iGaming-платформи, яка хоче автоматизованого усунення інцидентів, але не може дозволити сторонній моделі навчатися на власному коді або зберігати його, тепер має відповідь вендора для відповіді комплаєнс-службі. Чи забезпечується читання у межах файлу на рівні дозволів GitHub App або лише на рівні застосунку — в оголошенні не деталізується, і саме це розрізнення стане ключовим під час реального аудиту безпеки.

Розподіл Kubernetes Auto Fix на режим RCA та режим прямого застосування — правильне продуктове рішення. Детерміновані збої Kubernetes, як-от CrashLoopBackOff через неправильно налаштований liveness probe або OOMKilled-поди через відсутній ліміт пам'яті, достатньо передбачувані, щоб агент з повним контекстом кластера міг безпечно їх виправити. Інші режими збоїв, наприклад витік пам'яті в коді застосунку, потребують людського погляду на запропонований патч. Можливість вибирати для операторів режим для кожного правила — єдиний спосіб запустити це у виробництво в серйозній організації.

Хто Опиняється під Ударом

Шлях інгестії Datadog і Grafana — це прямий конкурентний удар. Middleware говорить: збережіть свої інвестиції в існуючі сповіщення, направте їх до нас і отримайте агентне усунення інцидентів зверху. Це класична стратегія клину, і вона спрацьовує на ринках, де перевага incumbent'а — це гравітація даних, а не можливості. Datadog сигналізує про власну AI-дорожню карту, але щойно зовнішній агент може реагувати на сповіщення Datadog і відправляти виправлення коду без міграції, CTO постає перед питанням: чи варті AI-функції incumbent'а своєї премії, якщо існує багатошарова альтернатива.

Команди, що найбільш піддаються ризику від цього запуску, — це mid-market SaaS та хмарно-нативні організації, що запускають від 50 до 500 сервісів на Kubernetes, які вже оплатили рахунок за спостережуваність, але не можуть обґрунтувати виділений SRE-штат на кожну команду. Це великий адресний ринок. Порівняно зі статус-кво, де 60 відсотків часу чергування витрачається на пошук першопричин, навіть 50-відсоткове скорочення (значно нижче заявлених Middleware цифр) — це різниця між необхідністю наймати третю чергову зміну та можливістю цього не робити.

Командам, яким варто бути обережнішими, — усі, хто працює з гетерогенною інфраструктурою поза Kubernetes, хто має суворий контроль змін, де відкриття PR ботом є подією управління, і хто перебуває в юрисдикціях, де код, згенерований ШІ у продакшені, потребує задокументованого людського огляду. Комплаєнс-позиція (SOC 2 Type II, ISO 27001, HIPAA, GDPR) — це мінімально необхідний рівень, але вона не відповідає на складніше питання управління: хто несе відповідальність за збій, спричинений автоматично застосованим виправленням. Джерело не розглядає розподіл відповідальності, і цей пробіл буде перевірено, коли Auto Fix вперше запушить невдалий конфіг у продакшен-кластер.

Інструкція для Інженерних Команд

Якщо ви ведете чергові ротації, 14-денний пробний період вартий виділення пісочниці в цьому спринті. Важливий не демо-сценарій, а те, щоб направити OpsAI на стейджинг-кластер, відтворити через нього інциденти минулого кварталу та виміряти дві цифри: який відсоток цих інцидентів було б вирішено автоматично коректно і який відсоток спричинив би хибне виправлення. Заява про 80 відсотків нічого не означає, доки у вас немає власного співвідношення.

Для платформних команд, які вже використовують Datadog або Grafana, шлях інгестії без міграції означає, що ви можете запустити OpsAI як оціночний шар на квартал, нічого не вириваючи. Розгляньте це як експеримент із чітким критерієм припинення: якщо рівень автовирішення на ваших навантаженнях нижче 40 відсотків після 60 днів — це не варто витрат.

Для тих, хто оцінює режим Auto Fix у продакшені, починайте з Auto RCA лише для читання та вимагайте людського затвердження кожного PR протягом перших 30 днів. Побудуйте схему тегування, яка дозволяє вносити до білого списку конкретні класи збоїв Kubernetes (цикли перезапуску подів, збільшення лімітів пам'яті) для повної автоматизації, водночас зберігаючи виправлення на рівні застосунків під контролем. Заява вендора — 80 відсотків автовирішень. Ваш допустимий рівень хибних спрацьовувань для автоматично застосованих виправлень, мабуть, 1 відсоток або менше, і ці дві цифри мають бути узгоджені через політику, а не маркетинг.

Якщо ця категорія розвинеться так, як ставить Middleware, ми маємо побачити щонайменше одного великого incumbent-вендора спостережуваності, який оголосить порівнянний агентний продукт усунення інцидентів із генерацією PR до Q4 2026, а медіанний MTTR у DevOps-опитуваннях повинен помітно знизитися до середини 2027 року. Якщо жодне з цього не станеться — цифра в 80 відсотків була лише театром бенчмарків.

Ключові Висновки

  • OpsAI від Middleware заявляє про понад 80 відсотків автовирішень виробничих інцидентів та перевагу в часі відповіді в 10 разів порівняно з конкуруючими AI SRE-агентами, при цьому порівняльний набір не розкривається.
  • Першокласний доступ до телеметрії на OpenTelemetry-нативній платформі — це архітектурна ставка на противагу платформо-незалежним агентам, які отримують дані через сторонні API.
  • Інгестія сповіщень Datadog і Grafana без міграції — це клин проти incumbent'ів, чия перевага полягає в гравітації даних, а не в агентних можливостях.
  • Розподіл Kubernetes Auto Fix на режим лише RCA та режим прямого застосування — правильне продуктове рішення для розгортання в продакшені, однак питання управління щодо автоматично застосованих виправлень в оголошенні не розглядається.
  • Відкрите питання: відповідальність і управління змінами у випадку, коли агент автоматично застосовує невдале виправлення. Це стане вирішальним питанням для регульованих галузей, і орієнтовно протягом 12 місяців перший публічний postmortem змусить вендорів дати на нього відповідь.

Часті Запитання

Питання: Чим Middleware OpsAI реально відрізняється від існуючих AIOps-інструментів?

OpsAI працює як першокласний агент на власній платформі спостережуваності Middleware, з нативним доступом до APM, RUM, логів, метрик інфраструктури та Kubernetes-телеметрії, а не отримує дані через сторонні API. Він генерує GitHub pull request-и через інтеграцію MCP і може безпосередньо усувати Kubernetes-інциденти в режимі Auto Fix. Компанія заявляє про відповідь у 10 разів швидше, ніж у конкуруючих AI SRE-агентів, хоча порівняльний набір бенчмарків не розкривається.

Питання: Чи безпечно дозволяти AI-агенту автоматично застосовувати виправлення до продакшен-кластера Kubernetes?

Це залежить від класу збою. Детерміновані проблеми Kubernetes, як-от збої подів, неправильні конфігурації лімітів пам'яті та збої проб, є розумними кандидатами для режиму Auto Fix. Помилки на рівні застосунку та витоки пам'яті слід залишати в режимі Auto RCA, де агент лише пропонує виправлення. Більшості команд варто починати з режиму лише пропозицій і поступово додавати до білого списку конкретні типи збоїв для повної автоматизації.

Питання: Як OpsAI забезпечує конфіденційність вихідного коду?

За словами Middleware, інтеграція GitHub MCP використовує читання у межах файлу та нульове збереження вихідного коду, тобто агент отримує доступ лише до файлів, що стосуються конкретного інциденту, і не зберігає код. Middleware має сертифікати SOC 2 Type II, ISO 27001, HIPAA та GDPR. Чи забезпечується читання у межах файлу на рівні дозволів GitHub App або лише на рівні застосунку — не деталізується і потребує аудиту безпеки.

SC
Sarah Chen
RiverCore Analyst · Dublin, Ireland
ПОДІЛИТИСЯ
// RELATED ARTICLES
ГоловнаРішенняПроєктиПро насКонтакт
Новини06
Дублін, Ірландія · ЄСGMT+1
LinkedIn
🇺🇦UK