Blackwell inference dealsQumulusAIGPU utilizationQumulusAI Blackwell three-year inference contractsNvidia Blackwell AI infrastructure spending

QumulusAI підписує угоди на $124 млн на інференс-рішення Blackwell

16 чер 20267 хв. читанняSarah Chen

// У ЦІЙ СТАТТІ

01Цифри 02Що насправді змінилося 03Що вже закладено в ціну для AI-розробки 04Контраріанська точка зору 05Ключові висновки 06Часті запитання

QumulusAI уклала угоди щодо AI-інфраструктури на базі Nvidia Blackwell загальною вартістю понад $124 мільйони строком на три роки, і найцікавіша деталь тут — не сума. Суть у тому, що контракти орієнтовані на інференс, а не на навчання моделей. Це одне уточнення повністю змінює інтерпретацію угоди, адже економіка інференсу працює в протилежному напрямку порівняно з навчанням: навчальні задачі завершуються, а виробничі — ні.

Загальна сума в середньому становить близько $41 мільйона на рік зафіксованих витрат, де ключовим контрагентом є хмарний AI-провайдер Hyperbolic. Для незалежного постачальника GPU це реальна база доходів, але стратегічна цінність полягає в тому, на чому обидва генеральні директори акцентували увагу: не потужність, а те, наскільки стабільно завантажені сервери.

Цифри

Як повідомляє Data Center Knowledge, QumulusAI підписала угоди на суму понад $124 мільйони строком на три роки на базі розгортань Nvidia Blackwell, де Hyperbolic є одним із контрагентів. Контракти явно орієнтовані на інференс-навантаження з можливістю додаткового використання для менших задач навчання або файн-тюнінгу на тому самому обладнанні.

Порівняймо це з попередніми 18 місяцями на ринку. З 2024 року постачальники AI-інфраструктури конкурували переважно за однією ознакою: скільки GPU вони можуть розмістити в дата-центрі. Базовим припущенням було те, що попит на обчислювальні потужності для навчання фактично необмежений і будь-який кластер, який вдасться запустити, знайде покупця за ринковою ціною. Генеральний директор QumulusAI Майк Манішкалко описує цей підхід прямо: «Пріоритетом було забезпечення якомога більших і гнучкіших кластерів». Це і є теза 2024–2025 років у чистому вигляді.

Теза на 2026 рік, за словами того самого CEO, інша: «Сьогодні все більше клієнтів зосереджені на запуску моделей у виробництві у великому масштабі, але також хочуть гнучкості для менших задач навчання або файн-тюнінгу на тій самій інфраструктурі». Ключова зміна — у термінології. Навчання — це проєкт. Виробничий інференс — це операційна система. Перший завершується, другий накопичується.

CEO Hyperbolic Джаспер Чжан ще більш прямолінійний: «Завантаженість та економічна ефективність — на першому місці, адже простоюючі потужності — це найдорожча проблема на цьому ринку». Якщо сприймати це як цінновий сигнал, то обмежувальним фактором для економіки Blackwell у 2026 році є не розподіл ресурсів, а коефіцієнт використання. Hyperbolic також назвала час доступності та надійність постачання важливими факторами, що свідчить: ситуація з пропозицією досі достатньо напружена, але вже не настільки, щоб одна лише наявність потужностей виграла контракт.

Що джерело не розкриває — а це суттєво — так це мінімальний рівень завантаженості, закладений у суму $124 мільйони. Ми не знаємо ні законтрактованої кількості GPU, ні очікуваного середнього рівня завантаженості, ні ціни за GPU-годину, за якою укладено ці угоди. Проте оцінка корисна сама по собі: за три роки та приблизно $41 млн на рік, якщо виходити з економіки GPU класу Blackwell GB200 у діапазоні $2–$3 за GPU-годину, мова йде про кластер у кілька тисяч GPU, що працюють майже безперервно. Якщо завантаженість суттєво нижча — покупець несе втрати від різниці.

Що насправді змінилося

Три речі справді змінилися, і варто відокремити їх від інформаційного шуму.

По-перше, функція оптимізації для покупця тепер включає більше змінних. Манішкалко перераховує їх: «Клієнти оптимізують за багатьма факторами, включаючи час виходу на ринок, бюджет, SLA і вимоги до навантажень». Порівняйте це з 2024 роком, коли функція оптимізації для більшості AI-покупців зводилась до «будь-який H100, який можете дати, і якнайшвидше». Те, що SLA та форма навантаження тепер стоять поряд із сирою доступністю, свідчить: паніка з пропозицією на верхньому рівні вщухає, навіть якщо певні SKU залишаються дефіцитними.

По-друге, рівень зберігання та мережева інфраструктура більше не є уніфікованим рішенням. Джерело описує, як QumulusAI відштовхується від референсних архітектур Nvidia, але адаптує їх під вимоги клієнтів: локальний NVMe, підключене високопродуктивне сховище, зовнішні системи або ярусні архітектури, з мережевими рішеннями, що варіюються залежно від затримки, характеристик навантаження, часу розгортання та бюджету. Для навчання можна було обійтися стандартною схемою fat-tree з паралельною файловою системою. Для змішаного інференсу і файн-тюнінгу правильне рішення для низьколатентного чат-ендпоінту відрізняється від правильного рішення для батч-пайплайну ембедингів — і обидва можуть розміщуватися на одному фізичному парку. Це складніша інженерна задача, ніж «додати більше GB200».

По-третє, підрахунок вартості на один вихідний токен тепер явно використовується на рівні інфраструктури. Чжан зазначає: «Для інференсу зокрема затримка та вартість на одиницю виводу важливі, коли команди переводять open-source-навантаження у виробництво». Якщо читати це уважно, релевантною одиницею більше є не продані GPU-години, а токени, обслуговані за один долар амортизації капітальних витрат. Це ближче до того, як працює CDN або парк баз даних, ніж до того, як управляється HPC-кластер. Команди, що тестували інференс-рантайми, знають, наскільки великим є розрив між наївним розгортанням та добре налаштованим на тому самому обладнанні: це не 10%, це кратна різниця. Для тих, хто будує на базі OpenAI API або Claude, цей розрив наразі покриває вендор моделі. Для команд, що самостійно розгортають open-source-моделі на орендованому Blackwell, він безпосередньо потрапляє у їхній P&L.

Якщо ця теза правильна, до кінця 2026 року ми побачимо розходження між спотовими цінами на GPU-години на вторинному ринку та контрактними цінами: спот буде знижуватися, тоді як довгострокові інференс-орієнтовані контракти триматимуться. Це і є прогноз, який можна перевірити.

Що вже закладено в ціну для AI-розробки

Частина цього вже стала консенсусом, і робити вигляд, що це не так, — значить недооцінювати читача.

Перехід від інфраструктури, орієнтованої на навчання, до інфраструктури, орієнтованої на інференс, анонсувався щонайменше 18 місяців. Будь-хто, хто стежив за коментарями гіперскейлерів щодо капітальних витрат або спілкувався з керівниками платформ у провідних лабораторіях, чув одне й те саме: навчання — поривчасте і завершується, обслуговування — постійне і зростає разом із кількістю користувачів. Сама сума в $124 мільйони невелика за мірками 2026 року. Ринок визнав інференс основним довгостроковим навантаженням уже деякий час тому.

Що менш відображено в цінах — і на чому, на мою думку, інженерній аудиторії варто зосередитися — це операційні наслідки. Перехід від кластерів, орієнтованих на навчання, до кластерів, орієнтованих на інференс, змінює те, що означає «успіх» для команди з інфраструктури. Успіх навчання вимірюється часом до збіжності та витратами до чекпоінту. Успіх інференсу вимірюється p99-затримкою, токенами на секунду на GPU та завантаженістю, усередненою за розрахунковий період. Це різні дисципліни, і кадровий пул, що добре справлявся з першою, не автоматично справляється з другою. Тут більш релевантні оператори CDN та баз даних, ніж ML-дослідники.

Також недооцінена: імплікація для самої бізнес-моделі GPU-брокерів. Якщо завантаженість є обмежувальним фактором, то маржа провайдера визначається тим, наскільки добре він може мультиплексувати навантаження від кількох клієнтів на одному парку обладнання, не порушуючи SLA. Це задача планування навантажень, а не закупівлі. Провайдери, що виграють наступний етап, — ті, чиї планувальники краще, а не ті, чиї замовлення на закупівлю більші.

Контраріанська точка зору

Консенсусне прочитання цієї угоди полягає в тому, що ринок дозрів і економіка інференсу тепер домінує. Я б стверджував, що є правдоподібна альтернативна інтерпретація: фреймінг «інференс на першому місці» частково є наративною зручністю для продавців, які не змогли розмістити чисті навчальні потужності за бажаними цінами.

Розглянемо сторону пропозиції. Якби попит на навчання від провідних лабораторій залишився на рівні інтенсивності 2024 року, незалежним провайдерам на кшталт QumulusAI не потрібно було б позиціонуватися навколо завантаженості, адже їхні кластери були б зарезервовані для навчання за преміальними цінами. Те, що «гнучкість для менших задач навчання або файн-тюнінгу на тій самій інфраструктурі» тепер є торговою перевагою, а не основним сценарієм використання, свідчить: попит на навчання з боку довгого хвоста послабшав відносно потужностей, що виходять на ринок. Інференс — це навантаження, яке заповнює прогалину.

Це не робить угоду гіршою, але змінює те, що вона сигналізує. Це означало б, що ми спостерігаємо не чіткий перехід від навчання до інференсу. Ми спостерігаємо консолідацію попиту на навчання першого ешелону серед жменьки гіперскейлерів, тоді як усі інші борються за інференс-пиріг. Джерело не надає нам даних для підтвердження або спростування цього, і я хочу чітко зазначити: ми не знаємо, яка частка незалежних GPU-потужностей наразі використовується для навчання, а яка для інференсу, — а саме це співвідношення є єдиним числом, яке вирішило б суперечку.

Ключові висновки

$124 млн — це підлога, завантаженість — стеля. Вартість угоди менш важлива, ніж законтрактований коефіцієнт використання, який джерело не розкриває. Покупці, що не можуть тримати парки Blackwell близько до повного завантаження, нестимуть втрати від різниці.
Операційний інференс — це інша дисципліна. Навички з операцій CDN та баз даних переносяться краще, ніж навички з ML-досліджень. Плани найму мають це відображати.
Зберігання та мережева інфраструктура більше не є уніфікованим вибором. Локальний NVMe проти ярусного зовнішнього сховища тепер варіюється залежно від навантаження на одному фізичному парку. Референсні архітектури — це відправна точка, а не кінцева.
Вартість на вихідний токен — нова одиниця вимірювання. Команди, що самостійно розгортають open-source-моделі, беруть на себе оптимізаційну роботу, яку інакше виконують API-вендори. Розрив між наївним і налаштованим розгортанням — кратний, а не відсотковий.
Слідкуйте за спотовими та контрактними цінами на GPU. Якщо інференс-теза підтвердиться, спотові ціни повинні знижуватися до кінця 2026 року, тоді як довгострокові інференс-орієнтовані контракти залишатимуться стабільними. Це розходження є випереджальним індикатором.

Часті запитання

Q: Що насправді охоплюють контракти QumulusAI на $124 мільйони?

Згідно з джерелом, угоди загальною сумою понад $124 мільйони укладені на три роки, прив'язані до розгортань Nvidia Blackwell та орієнтовані на інференс-навантаження, де Hyperbolic є одним із контрагентів. Конкретні кількості GPU, ціни та припущення щодо завантаженості не розкривалися.

Q: Чому простоюючі GPU-потужності описуються як найдорожча проблема?

CEO Hyperbolic Джаспер Чжан сформулював це прямо: виробничі інференс-навантаження працюють безперервно, тому кожна година простою GPU — це невідновлюваний дохід на тлі фіксованих капітальних витрат та витрат на електроенергію. На відміну від навчання, яке є поривчастим і скінченним, інференс-парки мають бути розраховані та заплановані для стабільних коефіцієнтів використання.

Q: Що інженерним командам варто винести з переходу від навчання до інференсу?

Навички та інструментарій, що забезпечили успіх в епоху навчання, не автоматично забезпечують успіх в епоху інференсу. Оптимізація інференсу винагороджує дисципліни, ближчі до операцій CDN та баз даних: бюджетування затримок, багатоклієнтське планування, налаштування токенів на секунду на GPU та планування потужностей на основі SLA — замість метрик часу до чекпоінту.

Sarah Chen

RiverCore Analyst · Dublin, Ireland

// СХОЖІ СТАТТІ