Skip to content
RiverCore
Почему современная архитектура данных ломается на проде
data architecture failuresplatform engineeringdata warehousewhy data architecture fails in productiondata lakehouse migration challenges

Почему современная архитектура данных ломается на проде

8 май 20267 мин. чтенияMarina Koval

Каждый руководитель платформы, который сейчас проектирует миграцию на data warehouse, data lake или lakehouse, на самом деле принимает кадровое решение раньше технологического — и большинство из них этого ещё не осознают. В презентациях вендора схема всегда выглядит безупречно. Вопрос в другом: способна ли та инженерная команда, которая у вас есть в реальности, а не та, что описана в RFP, поддерживать эту схему в рабочем состоянии спустя восемнадцать месяцев.

Именно такой неудобный тезис звучит в новой статье Forbes Technology Council за авторством enterprise CIO Тай Вонга, и выходит она в момент, когда платформенные команды закладывают семи- и восьмизначные бюджеты на AI-ready дата-стеки. Архитектура ломается редко. Ломается операционная модель вокруг неё.

В чём проблема

Стандартная история модернизации выглядит так. Платформенная команда выбирает паттерн (warehouse, lake или lakehouse), обосновывает выбор платформы на steering committee и выпускает эталонную архитектурную схему с аккуратными блоками для ingestion, трансформации и serving. Через двенадцать — восемнадцать месяцев поставки замедляются, дежурство превращается в кошмар, а небольшое изменение в исходной системе расходится волнами по пайплайнам, которые никто толком не поддерживает.

Как сообщает Forbes, Вонг утверждает: самая распространённая ошибка — выбирать архитектуру исходя из того, что она умеет, а не из того, что организация реально способна поддерживать. Эта фраза звучит как консалтинговый штамп — до тех пор, пока не переносишь её в бюджет. Возможности — это строка, понятная CFO. Эксплуатируемость — это разговор о штатном расписании, который CFO привык откладывать.

Технический паттерн, который описывает Вонг, знаком каждому, кто когда-либо принимал пятилетнюю дата-платформу в наследство. Пайплайны множатся. Трансформации дублируются между командами, которые не знали о существовании друг друга. Легаси-код, захардкоженная логика и временные фиксы накапливаются, чтобы компенсировать ранние ограничения систем, и живут куда дольше, чем должны. Результат — техническое торможение и то, что Вонг называет риском институциональных знаний: слишком много понимания сосредоточено в слишком немногих людях.

Что изменилось в 2026 году — так это нагрузка. AI-сценарии теперь предъявляют явные требования к этим платформам, а не остаются слайдом про «будущее состояние». Это значит, что архитектуры, которые были терпимы, когда обслуживали еженедельные BI-дашборды, теперь должны питать feature stores, retrieval-пайплайны и обвязку для оценки моделей. Гибкость, которую дают lakes и lakehouses (собирать и использовать большие объёмы данных быстро, не упорядочивая всё идеально с самого начала, как формулирует это Вонг), в момент, когда downstream-потребители ожидают freshness SLA в минутах, а не днях, превращается в операционный риск.

Полезное сравнение: стек с warehouse в центре принуждает к согласованности заранее, lake откладывает её. Отложенная согласованность накапливает проценты. К третьему году команда расплачивается долгом.

Варианты на столе

Если убрать маркетинг, платформенные команды выбирают между тремя паттернами, каждый из которых требует разного операционного профиля.

Warehouse-ориентированный стек (Snowflake, BigQuery, Redshift). Структура и согласованность — вот главные аргументы. Дисциплина схем поддерживается самой платформой, а значит, небольшая команда аналитических инженеров способна удерживать порядок. Обратная сторона — накладные расходы на governance при ingestion и счёт, который масштабируется с вычислениями так, как финансовые команды уже научились бояться. Документация Snowflake прямо говорит о паттернах изоляции нагрузок, но именно изоляция — это то, как расходы незаметно вырастают втрое.

Lake-first (объектное хранилище плюс движки запросов). Максимальная гибкость, минимальная стоимость хранения и возможность сначала приземлить данные, а потом решить, что с ними делать. Подвох в том, что без жёстких инженерных контролей логика рассыпается по слишком большому числу пайплайнов, и команды решают одну и ту же задачу по-разному — слова Вонга. Отладка замедляется. Платформа технически работает, но становится всё сложнее в эксплуатации.

Lakehouse (Databricks, открытые табличные форматы — Iceberg и Delta). Нынешний консенсусный ответ, балансирующий гибкость и структуру. Databricks и экосистема открытых табличных форматов сделали этот подход жизнеспособным в масштабе. Но lakehouse-архитектуры наследуют операционную сложность обоих родителей. Вам одновременно нужна warehouse-grade governance и lake-grade инженерная дисциплина.

Фрейм принятия решения, к которому я бы подталкивал платформенных руководителей, таков: каждая модель несёт разный уровень сложности, гибкости и накладных расходов на governance. Больше гибкости — больше дисциплины. Больше структуры — больше согласованности заранее. Вопрос «строить или покупать» сворачивается в вопрос о найме. Warehouse-стек может работать с тремя аналитическими инженерами и part-time платформенным инженером. Lakehouse сопоставимого масштаба реально требует выделенной платформенной команды, функции надёжности данных и фреймворка трансформаций вроде dbt со зрелыми CI-практиками — прежде чем что-либо уедет в продакшен.

Для аналитически тяжёлых нагрузок, где доминирует латентность запросов, OLAP-движок вроде ClickHouse, расположенный downstream от любого из паттернов, всё чаще оказывается правильным ответом — не заменой платформенного решения, а признанием того, что один движок не обслуживает все виды нагрузок одинаково хорошо.

Измерение vendor lock-in реально и редко моделируется честно. Открытые табличные форматы его снижают. Проприетарные хранимые процедуры и warehouse-специфичные SQL-расширения — увеличивают. Тот, кто принимает это решение, должен явно зафиксировать его в архитектурном ревью, а не обнаруживать при продлении контракта.

Что командам по данным следует делать на практике

Вонг выделяет четыре качества архитектур, которые выдерживают испытание временем: наблюдаемые пайплайны, переиспользуемые трансформации, контролируемые деплойменты и общая архитектура, которая остаётся понятной по мере развития. Это не функции платформы. Это результаты инженерных решений, и именно они должны служить критерием оценки любого вендора в этом квартале.

Переводим в конкретные действия. Перед подписанием многолетнего контракта руководитель платформы должен уметь чётко ответить на четыре вопроса. Как мы мониторим сбой пайплайна от начала до конца, и кто получает алерт? Как мы не даём двум командам написать одну и ту же трансформационную логику, и где точка ревью, которая это ловит? Как выглядит деплоймент, и как мы делаем откат? Когда новый инженер выходит на работу на девятом месяце, может ли он понять систему только по документации — или зависит от трёх людей, которые случайно помнят, зачем существует конкретный SQL-вью?

Если этих ответов не существует до закупки, они не появятся волшебным образом после. Разрыв между хорошо спроектированной и устойчивой архитектурой данных, утверждает Вонг, редко связан с самой технологией. Он связан с инженерными контролями вокруг неё.

Мой взгляд: правильная последовательность — сначала инвестировать в инструменты трансформации, observability и дисциплину деплоймента, а потом выбирать платформу. Большинство организаций делают это в обратном порядке, потому что именно платформенное решение имеет политическое прикрытие на уровне руководства и бюджетную строку. Контроли добавляются потом, под давлением, после первого крупного инцидента.

Подводные камни и граничные случаи

CFO любой компании, которая в этом квартале оценивает миграцию на lakehouse, должен задать вице-президенту по инженерии один конкретный вопрос: какова полная операционная стоимость за тридцать шесть месяцев, включая численность персонала, необходимую для поддержки observability пайплайнов и переиспользования трансформаций, — а не только стоимость контракта с платформой. Большинство TCO-моделей, представляемых финансовому блоку, занижают человеческую стоимость в два-три раза, и именно этот разрыв превращает чистую миграцию в многолетний перерасход.

Следите за этими сигналами провала при развёртывании. Небольшие изменения, расходящиеся волнами по множеству слоёв, — это ранний признак того, что трансформационная логика не структурирована под изменения. Если переименование колонки в исходной системе требует правки двенадцати файлов, архитектура уже начала деградировать. Во-вторых, когда слишком много понимания сосредоточено в слишком немногих людях — это проблема риска на рынке найма, а не только проблема документации. Два ведущих инженера, ушедших в одном квартале, могут фактически заморозить развитие платформы.

Регуляторный риск — третий подводный камень, особенно для fintech- и iGaming-команд, читающих этот материал. Lake-архитектуры собирают данные сначала, а управляют ими потом — что прямо противоположно тому, как большинство регуляторов в области защиты данных хотят, чтобы вы работали. Lineage, хранение и контроль доступа должны быть заложены в проект, а не добавлены под давлением аудита.

Ключевые выводы

  • Выбирайте архитектуру, которую ваша команда способна эксплуатировать, а не ту, что лучше всего смотрится на демо. Главный тезис Вонга: сложность обгоняет возможности, когда команды выбирают, ориентируясь только на возможности.
  • Гибкость облагается налогом на дисциплину. Lakes и lakehouses позволяют быстро собирать данные, но без инженерных контролей эта скорость превращается в хаос за восемнадцать месяцев.
  • Четыре качества устойчивой архитектуры — организационные, а не технические: наблюдаемые пайплайны, переиспользуемые трансформации, контролируемые деплойменты и архитектура, которая остаётся понятной по мере развития.
  • Концентрация институциональных знаний — это риск платформы. Документируйте агрессивно, ротируйте ответственность и относитесь к единой точке отказа по знаниям так же, как к единой точке отказа в системе.
  • Командам, оценивающим миграцию платформы в 2026 году, уже сейчас стоит спросить себя: кого нанять следующим — платформенного инженера или инженера по надёжности данных, потому что архитектурное решение и решение об оргструктуре — это одно и то же решение.

Часто задаваемые вопросы

В: Всегда ли lakehouse лучше традиционного warehouse?

Нет. Вонг прямо указывает, что единственно верной модели не существует и что он работал в средах, где каждый из подходов — warehouse, lake и lakehouse — имел смысл. Правильный выбор определяется тем, какой уровень сложности инженерная организация способна реально усвоить и поддерживать со временем, а не тем, какой паттерн звучит современнее.

В: По каким признакам можно понять, что архитектура данных начинает деградировать?

Следите за небольшими изменениями, расходящимися по множеству слоёв, за дублированием трансформационной логики между командами, за накоплением легаси-кода и захардкоженных фиксов, а также за концентрацией критического понимания системы в нескольких людях. Именно эти паттерны Вонг называет техническим торможением и риском институциональных знаний.

В: Как AI-сценарии должны влиять на выбор архитектуры данных в 2026 году?

AI теперь создаёт реальную нагрузку на дата-платформы, а не является соображением на будущее. Это повышает требования к freshness, lineage и надёжности пайплайнов. Архитектуры, которые были приемлемы для еженедельных BI-отчётов, могут не выдержать операционных требований feature stores и модельных пайплайнов без значительных инвестиций в observability и контроль деплоймента.

MK
Marina Koval
RiverCore Analyst · Dublin, Ireland
ПОДЕЛИТЬСЯ
// RELATED ARTICLES
ГлавнаяРешенияПроектыО насКонтакт
Новости06
Дублин, Ирландия · ЕСGMT+1
LinkedIn
🇷🇺RU