on-prem inferenceagentic AIedge infrastructureon-premises AI inference cost savingsDell Nvidia enterprise AI strategy

Dell и Nvidia делают ставку на локальный инференс вместо облачных AI-фабрик

18 апр 20266 мин. чтенияSarah Chen

// В ЭТОЙ СТАТЬЕ

01Цифры 02Что действительно нового 03Что уже заложено в ценах для разработки AI 04Контрарианский взгляд 05Ключевые выводы 06Часто задаваемые вопросы

Два руководителя, одна позиция: волна агентского AI — это второй момент ChatGPT, а экономика «постоянного инференса в масштабе» возвращает корпоративные AI-нагрузки к собственной инфраструктуре. Именно это утверждали Варун Чхабра от Dell и Энн Хехт от Nvidia на theCUBE на этой неделе — и это прямой вызов убеждению, господствовавшему примерно три года: что передовые AI-системы навсегда обоснуются в облаках гиперскейлеров.

Само интервью практически лишено конкретных цифр, и это стоит отметить сразу. Вместо этого оно даёт чёткое представление о том, как два крупнейших инфраструктурных вендора позиционируют себя против нарратива «облако по умолчанию», определявшего рынок с 2023 по 2025 год.

Цифры

Количественная составляющая этого сегмента крайне скудна, и это важно. Чхабра и Хехт выступали перед Джоном Фарриером с theCUBE в рамках серии интервью AI Factories из студии SiliconANGLE, и как сообщил SiliconANGLE, в центре внимания — «агентский» AI как главная корпоративная задача: Чхабра упомянул анонсы «OpenClaw» и «NemoClaw» от Nvidia в качестве триггерных точек. Ни один из руководителей не раскрыл данных о количестве развёртываний, выручке, привязанной к платформе Dell Automation, показателях прикрепления к SKU Dell на базе Nvidia, или о пропускной способности токенов на стеке конфиденциальных вычислений, на котором теперь работает модель Google Gemini в локальной инфраструктуре.

Само это отсутствие — уже сигнал. Когда вендоры продвигают смену категории без публикации бенчмарков, честная интерпретация такова: тезис по-прежнему носит качественный характер. Сравните это с моментом DeepSeek, на который ссылалась Хехт, произошедшим годом ранее: тогда появились опубликованные бенчмарки рассуждений, которые вынудили всех провайдеров инференса пересмотреть допущения о стоимости. Агентский же питч, напротив, продаётся на основе настроений разработчиков («все спрашивают нас, как быстрее внедрить агентский AI»), а не показателей пропускной способности на доллар.

Единственное конкретное архитектурное утверждение с реальным весом: Gemini теперь работает локально на сервере Dell через конфиденциальные вычисления. Это существенное отступление от облачного дефолта, который Google придерживается для своих передовых моделей. Из источника мы не знаем, о каком уровне Gemini идёт речь, как выглядит модель аттестации и каков разрыв в производительности по сравнению с управляемым Gemini API. Эти пробелы принципиальны, потому что весь экономический аргумент в пользу «собственной AI-фабрики» рассыпается, если локальный инференс существенно медленнее или дороже на токен, чем эквивалент у гиперскейлера.

Если это позиционирование реально, Dell должна раскрыть как минимум одно именное корпоративное развёртывание с данными о пропускной способности токенов в течение двух кварталов. Если к Q4 2026 ничего не появится, агентский питч следует считать маркетинговой надстройкой над обычными циклами продаж ISG-оборудования.

Что действительно нового

Отбросив риторику о «моменте ChatGPT для агентского AI», можно выделить три вещи, которые реально отличаются от корпоративного AI-разговора 2024 года.

Первое — профиль нагрузки. Описание Хехт агентов, работающих ночью, генерирующих отчёты, совершающих действия и «сжигающих кучу токенов», — это не то же самое, что запрос-ответная нагрузка чат-бота, определявшая последние два года. Агентские нагрузки больше напоминают пакетные задачи с непредсказуемым ветвлением. Один пользовательский запуск может породить десятки вызовов модели через несколько агентов, а если эти агенты порождают суб-агентов (паттерн «агенты, создающие других агентов», упомянутый Хехт), потребление токенов становится комбинаторно трудно прогнозируемым. Это ломает допущения о поместной оплате, на которых большинство корпоративных AI-бюджетов строилось в 2024–2025 годах.

Второе — история с конфиденциальными вычислениями. Передовые модели, работающие на принадлежащем заказчику кремнии с аттестацией, — это архитектурный сдвиг, а не маркетинговый. Он меняет регуляторный расчёт для финансовой сферы, здравоохранения и любых нагрузок, затрагивающих персональные данные или торговые данные. Для вертикалей iGaming и финтех в частности конфиденциальные вычисления на локальной инфраструктуре — это разница между «мы можем оценить эту модель» и «юридический отдел заблокировал развёртывание до прохождения проверки на соответствие требованиям к резидентности данных». Детали стека имеют значение, а источник не раскрывает реализацию TEE — является ли она процессорной (Intel TDX, AMD SEV-SNP) или GPU-based (режимы конфиденциальных вычислений Nvidia на H100/Blackwell), — а также каковы накладные расходы на производительность. Исторически конфиденциальные вычисления добавляли 5–15% накладных расходов на ресурсоёмких нагрузках. Если здесь это сохранится, математика TCO всё равно будет в пользу локального решения для высоконагруженного инференса.

Третье — упаковка в виде готовых схем. Упоминание Чхаброй Dell Automation Platform и blueprints Nvidia — молчаливое признание того, что подход «купи коробки и разбирайся с ПО самостоятельно» провалился как модель выхода на рынок корпоративного AI. Само это признание — уже новость. Являются ли blueprints чем-то большим, чем референсные архитектуры, — вот вопрос, на который источник не даёт ответа.

Что уже заложено в ценах для разработки AI

Большинство из этого уже ожидаемо для тех, кто следит за экономикой токенов. Сдвиг к распределённому инференсу на локальной инфраструктуре, на периферии и на рабочих станциях был заметен к концу 2025 года, как только первая волна корпоративных покупателей увидела счета от OpenAI и Anthropic после масштабного развёртывания ассистентов для написания кода. Фрейм «аренда против владения AI-фабрикой» был тезисом Nvidia и Dell как минимум три квартала подряд.

Что ещё не учтено: скорость, с которой агентские системы сломают ценовые модели на основе потребления. Если описанный Хехт паттерн ночных автономных агентов станет стандартным, разрыв между предсказуемыми SaaS-бюджетами и реальным сжиганием токенов вынудит либо ввести жёсткие ограничения (что ухудшит пользовательский опыт), либо сделать капексный переход (что выгодно Dell и Nvidia). Интересный вопрос для технических лидеров платформ — что произойдёт первым и успеют ли вендоры моделей, такие как Anthropic, скорректировать свои ценовые лестницы достаточно быстро, чтобы управляемый путь оставался конкурентоспособным. Документация Anthropic уже намекает на многоуровневые подходы для паттернов использования инструментов и компьютера, однако структура ценообразования ещё не догнала топологии «агент агентов».

Также не учтено: управление. Чхабра обозначил противоречие между продуктивностью и надзором, и именно здесь большинство корпоративных развёртываний 2026 года забуксует. Определение полномочий агента на совершение действий и аудит того, что он сделал, — по-прежнему задача, решённая лишь на бумаге. Спецификация MCP помогает на стороне интеграции, но не отвечает на вопрос авторизации.

Контрарианский взгляд

Консенсусная интерпретация этого интервью будет такой: агентский AI — новая нагрузка, локальная инфраструктура возвращается, Dell и Nvidia хорошо позиционированы. Я бы поспорил, что контрарианскую точку зрения сложнее отмахнуться.

Питчи на тему корпоративной инфраструктуры имеют повторяющийся паттерн. Раз в два года партнёрство вендоров объявляет, что профиль нагрузки фундаментально изменился и ответ — владение стеком. Hadoop. Приватное облако. Edge-вычисления. В каждом цикле был законный тезис, и каждый цикл заканчивался тем, что гиперскейлеры всё равно поглощали большую часть нагрузки — потому что операционная нагрузка побеждала теоретический TCO для всех, кроме верхней квинтили предприятий по масштабу.

Агентский питч имеет ту же форму. Да, экономика токенов выглядит болезненно по текущим ценам на управляемые сервисы. Но у управляемых вендоров есть все стимулы снижать цены быстрее, чем Dell поставляет стойки, и они уже делали это дважды за последние восемнадцать месяцев. Если только конфиденциальные вычисления не обеспечат регуляторный ров, который гиперскейлеры действительно не смогут преодолеть (а запуск Google Gemini на оборудовании Dell намекает, что гиперскейлеры это заметили), история о локальной AI-фабрике скорее всего будет обслуживать топ-200 предприятий, а не станет стандартом.

Ключевые выводы

Фреймирование «агентский AI как момент ChatGPT» от Dell и Nvidia — качественный питч без опубликованных данных о пропускной способности или развёртываниях в источнике. Требуйте бенчмарки, прежде чем переписывать дорожную карту инфраструктуры.
Gemini, работающий локально на Dell через конфиденциальные вычисления, — единственное наиболее конкретное техническое утверждение, заслуживающее отслеживания. Реализация TEE и накладные расходы на производительность не раскрыты, а они определяют, работает ли экономика.
Агентские нагрузки ломают допущения о поместной и поштучной оплате. Технические лидеры платформ в финтех и iGaming должны смоделировать сжигание токенов при топологиях «агент порождает агента» перед подписанием многолетних управляемых контрактов.
Dell Automation Platform плюс blueprints Nvidia — признание того, что модель выхода на рынок «только оборудование» провалилась для корпоративного AI. Открытый вопрос: являются ли blueprints операционно полезными или это маркетинговые артефакты.
Следите за неизвестным: если Dell не сможет раскрыть именное корпоративное развёртывание с реальными данными о пропускной способности токенов к Q4 2026, агентский инфраструктурный питч следует дисконтировать до истории об обычном цикле продаж ISG-оборудования.

Часто задаваемые вопросы

В: Что конкретно анонсировали Dell и Nvidia в этом интервью?

Никаких продуктовых запусков объявлено не было. Варун Чхабра и Энн Хехт описали, как агентские AI-нагрузки меняют корпоративные решения в области инфраструктуры, упомянули OpenClaw и NemoClaw от Nvidia, и подчеркнули, что модель Google Gemini теперь может работать локально на сервере Dell через конфиденциальные вычисления. Сегмент был позиционированием, а не анонсом продукта.

В: Почему конфиденциальные вычисления важны для локального запуска Gemini?

Конфиденциальные вычисления используют доверенные среды выполнения на уровне оборудования, чтобы веса передовых моделей и данные клиентов оставались зашифрованными даже во время инференса. Это позволяет регулируемым отраслям запускать модели вроде Gemini на собственном оборудовании, не раскрывая ни интеллектуальную собственность модели, ни входные данные — именно это юридическое препятствие удерживало многие финтех- и медицинские нагрузки от управляемых AI-сервисов.

В: Действительно ли «владение AI-фабрикой» обходится дешевле аренды у гиперскейлера?

Это полностью зависит от степени утилизации. Для высоконагруженного постоянного инференса — например, агентских систем, выполняющих ночные задачи, — капекс на выделенную инфраструктуру может стабилизировать затраты по сравнению с ценообразованием на основе потребления. Для нерегулярных или низкоутилизируемых нагрузок управляемые сервисы почти всегда выигрывают по TCO. Источник не публикует сравнительных данных, поэтому предприятиям необходимо моделировать собственные объёмы токенов перед принятием решений.

Sarah Chen

RiverCore Analyst · Dublin, Ireland

// RELATED ARTICLES

Пять ведущих AI-вендоров провалили одну и ту же атаку. Что дальше?

Исследование Cisco выявило, что OpenAI, Anthropic, Google, Amazon и xAI провалили один класс атак. Последствия для платформ и закупок — немедленные.

NVIDIA и TSMC внедряют ИИ на производство чипов

NVIDIA и TSMC внедряют ИИ непосредственно на фабрики. Поставщик стал сопилотом, и это влечёт последствия, которые никто ещё не оценил.

Пичаи признал: Google отстаёт от конкурентов в области ИИ-агентов для программирования

Сундар Пичаи признал, что Google отстаёт от Anthropic в агентном программировании. Причина — не вычислительные мощности и не таланты. Это нечто старее и дороже.