on-prem inferenceagentic AIedge infrastructureon-premises AI inference cost savingsDell Nvidia enterprise AI strategy

Dell і Nvidia роблять ставку на власну інфраструктуру для інференсу замість хмарних AI-фабрик

18 кві 20266 хв. читанняSarah Chen

// У ЦІЙ СТАТТІ

01Цифри 02Що справді нового 03Що вже закладено в ціну для AI-розробки 04Контрарний погляд 05Ключові висновки 06Часті запитання

Двоє керівників, одна теза: агентна хвиля — це другий момент ChatGPT, а економіка «постійного інференсу у масштабі» повертає корпоративні AI-навантаження назад до власної інфраструктури. Саме це стверджували Варун Чхабра (Dell) і Енн Хехт (Nvidia) на theCUBE цього тижня — і це прямий виклик уявленню, яке домінувало приблизно три роки: що передові AI-моделі назавжди оселяться у хмарах гіперскейлерів.

Саме інтерв'ю бідне на конкретні цифри, що варто зазначити одразу. Натомість воно дає чітке розуміння того, як двоє найбільших постачальників інфраструктури позиціонують себе проти наративу «хмара за замовчуванням», який формував ринок з 2023 по 2025 рік.

Цифри

Кількісний зміст цього сегмента мізерний — і це важливо. Чхабра та Хехт спілкувалися з Джоном Фур'є з theCUBE в рамках серії інтерв'ю AI Factories, що транслювалися зі студії SiliconANGLE, і, як повідомляло SiliconANGLE, в центрі уваги — «агентний» підхід як головний корпоративний пріоритет. Чхабра назвав анонси «OpenClaw» і «NemoClaw» від Nvidia тригерними точками. Жоден із керівників не розкрив кількість розгортань, дохід, пов'язаний з платформою Dell Automation, показники attach rate для SKU Dell на базі Nvidia, або показники пропускної здатності токенів у стеку конфіденційних обчислень, на якому тепер розміщена модель Google Gemini у режимі on-premises.

Ця відсутність сама по собі є сигналом. Коли вендори презентують зміну категорії без публікації бенчмарків, чесний висновок такий: теза досі залишається якісною. Порівняйте це з «моментом DeepSeek», який Хехт згадувала з минулого року: той момент настав разом із опублікованими бенчмарками міркувань, що змусили переглянути припущення щодо витрат кожного постачальника інференсу. Агентна теза, навпаки, продається на основі настроїв розробників («усі питають нас про те, як швидше впровадити агентний підхід»), а не показників пропускної здатності за долар.

Єдина конкретна архітектурна заява, що має вагу: Gemini тепер працює on-prem на сервері Dell через конфіденційні обчислення. Це суттєве відступлення від хмарного дефолту, якого Google дотримувалася для своїх передових моделей. З джерела ми не знаємо, який рівень Gemini, як виглядає модель атестації та яка різниця у продуктивності порівняно з керованим Gemini API. Ці прогалини важливі, бо весь економічний аргумент «власної AI-фабрики» руйнується, якщо on-prem інференс суттєво повільніший або дорожчий за токен, ніж хмарний еквівалент гіперскейлера.

Якщо це позиціонування реальне, ми повинні побачити, як Dell розкриє принаймні одне назване корпоративне розгортання з показниками пропускної здатності токенів упродовж двох кварталів. Якщо нічого не з'явиться до Q4 2026 — розглядайте агентну тезу як маркетинговий шар поверх існуючих апаратних циклів ISG.

Що справді нового

Відкиньте риторику «момент ChatGPT для агентного AI» — і три речі справді відрізняються від корпоративної AI-дискусії 2024 року.

По-перше, профіль навантаження. Опис Хехт агентів, що працюють уночі, генерують звіти, виконують дії та «спалюють купу токенів», — це не те саме, що навантаження типу запит-відповідь чат-бота, яке визначало останні два роки. Агентні навантаження більше схожі на пакетні завдання з непередбачуваним розгалуженням. Один запуск від користувача може породити десятки викликів моделей між кількома агентами, а якщо ті агенти породжують суб-агентів (патерн «агенти, що створюють інших агентів», згаданий Хехт), споживання токенів стає комбінаторно важко прогнозованим. Це руйнує припущення про ціноутворення «за місце», на яких будувалася більшість корпоративних AI-бюджетів у 2024–2025 роках.

По-друге, концепція конфіденційних обчислень. Запуск передових моделей на кремнії замовника з атестацією — це архітектурний зсув, а не маркетинговий. Він змінює регуляторний розрахунок для фінансової сфери, охорони здоров'я та будь-яких навантажень, що стосуються персональних даних або торгових даних. Для вертикалей iGaming і фінтех зокрема, конфіденційні обчислення on-prem — це різниця між «ми можемо оцінити цю модель» і «юридичний відділ заблокував розгортання до завершення перевірки щодо резидентності даних». Деталі стека важливі, а джерело не розкриває реалізацію TEE — чи є вона на основі CPU (Intel TDX, AMD SEV-SNP) або GPU (режими конфіденційних обчислень Nvidia H100/Blackwell), та яке навантаження на продуктивність. Історично конфіденційні обчислення додавали 5–15% накладних витрат на обчислювально інтенсивних навантаженнях. Якщо це збережеться, математика TCO все одно схиляється на користь on-prem для високоінтенсивного інференсу.

По-третє, пакування у вигляді blueprints. Посилання Чхабри на платформу Dell Automation Platform разом із blueprints від Nvidia — це мовчазне визнання того, що «купи сервери й розберися з програмним забезпеченням» провалилося як стратегія виходу на корпоративний AI-ринок. Саме це визнання є новим. Чи є ці blueprints чимось більшим, ніж референсні архітектури, — питання, на яке джерело не відповідає.

Що вже закладено в ціну для AI-розробки

Більшість із цього вже очікується тими, хто уважно стежить за токен-економікою. Зсув у бік розподіленого інференсу між on-prem, edge і робочими станціями був помітний наприкінці 2025 року, щойно перша хвиля корпоративних покупців побачила свої рахунки від OpenAI і Anthropic після масштабного розгортання кодових асистентів. Фреймінг «орендувати проти власної AI-фабрики» був тезою Nvidia і Dell щонайменше три квартали.

Що ще не закладено в ціну: швидкість, з якою агентні системи зламають моделі ціноутворення на основі споживання. Якщо описані Хехт нічні автономні агенти стануть стандартним патерном взаємодії, розрив між передбачуваними SaaS-бюджетами та реальним спалюванням токенів змусить або до жорстких обмежень (що псує продуктовий досвід), або до переходу на capex (що вигідно Dell і Nvidia). Цікаве питання для платформних лідів: що станеться першим і чи встигнуть постачальники моделей на кшталт Anthropic скоригувати свої тарифні сітки, щоб зберегти конкурентоспроможність керованого шляху. Документація Anthropic вже натякає на ярусні підходи для патернів використання інструментів і комп'ютера, але структура ціноутворення ще не наздогнала топології «агент агентів».

Також не закладено в ціну: управління. Чхабра вказав на напругу між продуктивністю й контролем — і саме тут більшість корпоративних розгортань 2026 року застрягне. Визначити, які повноваження має агент для виконання дій, і аудитувати те, що він зробив, — досі вирішена лише на папері проблема. Специфікація MCP допомагає на стороні інтеграції, але не відповідає на питання авторизації.

Контрарний погляд

Консенсусне прочитання цього інтерв'ю буде таким: агентний AI — нове навантаження, on-prem повертається, Dell і Nvidia добре позиціоновані. Я б стверджував, що контрарну позицію важко відкинути.

Корпоративні інфраструктурні пропозиції мають повторюваний патерн. Кожні два роки партнерство вендорів оголошує, що форма навантаження кардинально змінилася і що власний стек — це відповідь. Hadoop. Приватна хмара. Edge-обчислення. Кожен цикл мав законну тезу, і кожен цикл закінчувався тим, що гіперскейлери все одно поглинали більшість навантаження — бо операційне навантаження перемагало теоретичний TCO для всіх підприємств, окрім найбільших за масштабом.

Агентна теза має ту саму форму. Так, токен-економіка виглядає болісною за поточних цін на керовані сервіси. Але керовані вендори мають усі стимули знижувати ціни швидше, ніж Dell встигає відвантажувати стійки, і вони вже зробили це двічі за останні вісімнадцять місяців. Якщо тільки конфіденційні обчислення не створять регуляторну перевагу, яку гіперскейлери справді не зможуть відтворити (а запуск Google Gemini на обладнанні Dell натякає, що гіперскейлери це помітили), — on-prem AI-фабрика швидше за все обслуговуватиме топ-200 підприємств, ніж стане стандартом.

Ключові висновки

Фреймінг «агентний AI як момент ChatGPT» від Dell і Nvidia — якісна теза без опублікованих показників пропускної здатності або кількості розгортань у джерелі. Вимагайте бенчмарки, перш ніж переписувати дорожню карту інфраструктури.
Запуск Gemini on-prem на Dell через конфіденційні обчислення — єдина найбільш конкретна технічна заява, яку варто відстежувати. Реалізація TEE та накладні витрати на продуктивність не розкриті й визначають, чи спрацює економіка.
Агентні навантаження руйнують припущення ціноутворення за місцем і за запитом. Платформні ліди у фінтех та iGaming мають змоделювати спалювання токенів у топологіях «агент породжує агента», перш ніж підписувати багаторічні керовані контракти.
Dell Automation Platform разом із blueprints від Nvidia — це визнання того, що стратегія виходу на ринок «тільки обладнання» провалилася для корпоративного AI. Відкрите питання: чи blueprints операційно корисні, чи є маркетинговими артефактами.
Невідоме, за яким варто стежити: якщо Dell не зможе розкрити назване корпоративне розгортання з реальними показниками пропускної здатності токенів до Q4 2026, агентну інфраструктурну тезу слід дисконтувати до стандартної історії апаратного циклу ISG.

Часті запитання

П: Що насправді анонсували Dell і Nvidia в цьому інтерв'ю?

Жодних продуктових запусків не було. Варун Чхабра та Енн Хехт описали, як агентні AI-навантаження змінюють корпоративні рішення щодо інфраструктури, згадали OpenClaw і NemoClaw від Nvidia, а також підкреслили, що модель Google Gemini тепер може працювати on-premises на сервері Dell через конфіденційні обчислення. Сегмент був позиціонуванням, а не презентацією продукту.

П: Чому конфіденційні обчислення важливі для запуску Gemini on-prem?

Конфіденційні обчислення використовують довірені середовища виконання на апаратному рівні, щоб ваги передової моделі та дані клієнтів залишалися зашифрованими навіть під час інференсу. Це дозволяє регульованим галузям запускати моделі на кшталт Gemini на власному обладнанні, не розкриваючи ні IP моделі, ні вхідні дані — що і є юридичним блокером, який досі тримав багато фінтех- і медичних навантажень поза керованими AI-сервісами.

П: Чи справді «власна AI-фабрика» коштує дешевше, ніж оренда у гіперскейлера?

Це повністю залежить від рівня завантаженості. Для обсягових навантажень з постійним інференсом — як-от агентні системи, що виконують нічні завдання, — capex на виділену інфраструктуру може стабілізувати витрати порівняно з ціноутворенням за споживанням. Для переривчастих або низькозавантажених навантажень керовані сервіси майже завжди виграють за TCO. Джерело не публікує порівняльних цифр, тому підприємствам потрібно моделювати власні обсяги токенів, перш ніж брати зобов'язання.

Sarah Chen

RiverCore Analyst · Dublin, Ireland

// RELATED ARTICLES

П'ять провідних AI-вендорів провалили однакову атаку. Що далі?

Дослідження Cisco виявило, що OpenAI, Anthropic, Google, Amazon і xAI провалили один клас атак. Наслідки для закупівель і платформ — негайні.

NVIDIA та TSMC впроваджують ШІ у виробництво чипів

NVIDIA та TSMC вводять ШІ безпосередньо у виробничі фабрики. Постачальник став співпілотом, і це матиме наслідки, які ніхто ще не врахував.

Пічаї визнав, що Google відстає у сфері AI-агентів для програмування

Сундар Пічаї визнав, що Google відстає від Anthropic у агентному програмуванні. Причина — не обчислювальні потужності й не таланти. Це щось давніше й дорожче.