Skip to content
RiverCore
Множитель токенов GPU 6.5x от WEKA меняет игру в AI хранилищах
GPU token multiplierAI storageNeuralMeshenterprise AI infrastructure performance boostWEKA storage optimization solutions

Множитель токенов GPU 6.5x от WEKA меняет игру в AI хранилищах

15 апр 20265 мин. чтенияSarah Chen

Объявление WEKA от 16 марта содержало конкретное число, которое должно заставить каждую команду AI-инфраструктуры остановиться: в 6.5 раз больше токенов на GPU для рабочих нагрузок вывода. Это не постепенное улучшение. Это тот множитель, который переписывает экономику развертывания для команд, сжигающих распределения H100 как венчурный капитал.

Поставщик хранилищ из Сан-Хосе продвигает свою NeuralMesh AI Data Platform как недостающее звено между демонстрациями proof-of-concept и производственными AI-фабриками. Построенная на базе эталонной архитектуры NVIDIA AI Data Platform, она позиционируется как готовая инфраструктура для предприятий, которые доказали работоспособность своих моделей, но не могут масштабировать их прибыльно.

Что произошло

WEKA объявила о общей доступности NeuralMesh 16 марта 2026 года, как сообщает HPCwire, позиционируя её как готовое для предприятий решение на основе эталонной архитектуры NVIDIA. Платформа обещает сжать временные рамки AI-проектов с месяцев до минут — утверждение, подкрепленное 6.5-кратным множителем токенов при работе с их Augmented Memory Grid.

Время выхода совпадает с более широкими сигналами отрасли. Отчет SoftServe от 14 апреля показывает, что 98 процентов предприятий ожидают, что агентный AI ускорит поставку программного обеспечения в течение двух лет. Между тем, Cloudera обнаружила, что почти 80 процентов предприятий говорят, что AI сдерживается проблемами доступа к данным. WEKA ставит на то, что эти две точки данных создают идеальный шторм спроса.

«Предприятия сейчас развертывают AI Factories внутренне, что приводит к серьёзному сдвигу в сторону вывода по всей экосистеме», — сказал Лиран Звибель, соучредитель и генеральный директор WEKA. Платформа включает готовые к использованию конвейеры для семантического поиска, поиска видео и суммаризации, AlphaFold для открытия лекарств и агентных реализаций RAG.

WEKA построила NeuralMesh на основе более чем 170 патентов, накопленных за десятилетие разработки AI-нативных хранилищ. Компания утверждает, что 30 процентов Fortune 50 уже доверяют NeuralMesh, хотя источник не уточняет, касается ли это новой платформы или более широкого портфеля хранилищ WEKA.

Техническая анатомия

6.5-кратный множитель токенов раскрывает реальную инженерную историю здесь. Традиционные архитектуры хранения заставляют GPU ждать движения данных, создавая печально известную проблему «голодания GPU», когда ваш ускоритель за $40,000 тратит большинство циклов вхолостую. Augmented Memory Grid от WEKA, по-видимому, функционирует как массивный слой кеша, который держит контекст вывода горячим и локальным для вычислений.

Платформа интегрирует GPU NVIDIA RTX 6000 PRO Server Edition вместе с недавно объявленными блоками RTX 4500 PRO Server Edition. Это не типичное развертывание H100/A100, которое мы видим в кластерах обучения. WEKA делает ставку на оборудование, оптимизированное для вывода, которое обменивает сырые FLOPS на лучшую пропускную способность памяти и меньшее энергопотребление.

NeuralMesh поставляется как система в стиле аппаратного решения с партнерствами, охватывающими Red Hat, Spectro Cloud и Supermicro. Модель аппаратного решения важна, потому что она обходит налог на интеграцию, который убивает большинство проектов AI-инфраструктуры. Команды получают предварительно проверенные конфигурации вместо того, чтобы тратить месяцы на отладку конфликтов драйверов и узких мест сети.

Джейсон Харди, вице-президент технологий хранения в NVIDIA, подчеркнул фокус платформы на «непрерывном, связном потоке данных и контекста вывода». Это NVIDIA-язык для решения проблемы окна контекста в производственных агентных системах. Когда агенты должны поддерживать состояние через миллионы взаимодействий, традиционные архитектуры объектного хранения ломаются. Вам нужно что-то, что рассматривает контекст как гражданина первого класса, а не как дополнение.

Источник не раскрывает конкретные числа задержки или тесты IOPS, которые помогли бы подтвердить утверждение о 6.5x. Мы также не знаем базовую линию, с которой они сравнивают, хотя отраслевой стандарт был бы сравнением с объектными хранилищами, совместимыми с S3, или традиционными развертываниями NFS.

Кто пострадает

Pure Storage и NetApp сталкиваются с наиболее непосредственным давлением. Обе компании переделывали традиционные архитектуры хранения для AI-рабочих нагрузок, но портфель из 170 патентов WEKA предполагает, что они строили для этого случая использования с первого дня. FlashBlade от Pure и ONTAP AI от NetApp не были разработаны с постоянством контекста вывода как основным примитивом.

Обнаружение Cloudera того, что 80 процентов предприятий называют доступ к данным узким местом AI, ставит каждого традиционного поставщика хранилищ в известность. Если WEKA может обеспечить даже половину обещанного ускорения, это сбрасывает ожидания клиентов относительно того, что хранение должно вносить в экономику AI.

Компаниям платформ вывода, таким как BentoML, Seldon и KServe, возможно, придется переархитектурировать свои слои кеширования. Они решали проблему контекста в программном обеспечении, потому что уровень хранения не мог успевать. 6.5-кратное улучшение на уровне инфраструктуры делает многие из их оптимизаций устаревшими.

Настоящими жертвами могут быть AI-сервисы гиперскейлеров. AWS SageMaker, Google Vertex AI и Azure ML все предполагают относительно медленные уровни хранения, компенсируемые агрессивным кешированием на уровне инстансов. Если предприятия могут получить в 6.5 раз лучшую пропускную способность токенов на месте, преимущество в марже облачных провайдеров исчезает. Им нужно будет либо принять похожую технологию, либо согласиться быть отнесенными только к рабочим нагрузкам обучения.

Руководство для команд данных

Начните с аудита ваших текущих затрат на инфраструктуру вывода. Рассчитайте токены на доллар, а не только токены в секунду. Если вы запускаете вывод на облачных платформах, смоделируйте, что означало бы 6.5-кратное повышение эффективности для ваших ежемесячных счетов. Это число становится вашим обоснованием бюджета для оценки альтернатив на месте.

Запросите тесты у WEKA, используя ваши конкретные архитектуры моделей. Утверждение о 6.5x нуждается в валидации против ваших паттернов рабочей нагрузки. Сосредоточьтесь на 95-м процентиле задержек под производственной нагрузкой, а не только на числах пропускной способности. SLA вывода живут и умирают на хвостовых задержках.

Для команд, уже использующих оборудование NVIDIA, исследуйте, может ли NeuralMesh слоиться поверх существующих развертываний. GPU RTX 6000 и 4500 PRO предполагают, что это нацелено на разные рабочие нагрузки, чем кластеры обучения H100. Вы можете сохранить облако для обучения, перенеся вывод на место.

Тщательно рассмотрите компромисс операционной сложности. Аппаратные системы снижают бремя интеграции, но создают привязку к поставщику. Оцените, есть ли у вашей команды экспертиза для работы с еще одним уровнем хранения, даже если он якобы готов к использованию. Источник упоминает партнерства Red Hat и Spectro Cloud, предполагая интеграцию Kubernetes, но операционные детали остаются скудными.

Ключевые выводы

  • WEKA заявляет о 6.5-кратном увеличении токенов на GPU для рабочих нагрузок вывода с NeuralMesh, хотя базовое сравнение и методология тестирования не раскрыты
  • Платформа нацелена на разрыв между AI proof-of-concept и производством, где 80 процентов предприятий сообщают, что доступ к данным блокирует прогресс
  • Построена на 170 патентах с эталонной архитектурой NVIDIA, включает GPU RTX 6000 и 4500 PRO, а не традиционное обучающее оборудование H100/A100
  • Если утверждения о производительности подтвердятся, это может сместить рабочие нагрузки вывода обратно на месте и заставить облачных провайдеров пересмотреть экономику своих AI-сервисов
  • Следите за независимыми тестами во втором квартале 2026: если несколько клиентов подтвердят 6.5-кратное утверждение, ожидайте попытки поглощения Pure Storage и NetApp к концу года

Часто задаваемые вопросы

В: Что делает утверждение WEKA о 6.5x токенах значимым для производственных AI развертываний?

Большинство предприятий видят использование GPU ниже 30 процентов при выводе из-за узких мест хранения. Улучшение в 6.5 раз означает, что тот же флот GPU может обрабатывать в 6 раз больше пользовательских запросов, кардинально меняя экономику единиц AI продуктов. Однако WEKA не раскрыла, с какой базовой линией они сравнивают.

В: Чем NeuralMesh отличается от традиционных подходов к хранению для AI?

Традиционное хранение рассматривает AI рабочие нагрузки как любой другой паттерн доступа к данным. NeuralMesh, по-видимому, специально построена для поддержания контекста вывода через миллионы взаимодействий агентов, с их Augmented Memory Grid, держащей часто используемый контекст горячим и локальным для вычислительных ресурсов.

В: Должны ли команды рассматривать это для рабочих нагрузок обучения или только вывода?

Выбор оборудования (RTX 6000 и 4500 PRO) и акцент на контексте вывода предполагают, что это нацелено на производственный вывод, а не обучение. Команды, выполняющие распределенное обучение на кластерах H100, должны оценивать отдельно, поскольку цели оптимизации значительно различаются между инфраструктурой обучения и вывода.

SC
Sarah Chen
RiverCore Analyst · Dublin, Ireland
ПОДЕЛИТЬСЯ
// RELATED ARTICLES
ГлавнаяРешенияПроектыО насКонтакт
Новости06
Дублин, Ирландия · ЕСGMT+1
LinkedIn
🇷🇺RU