GPU token multiplierAI storageNeuralMeshenterprise AI infrastructure performance boostWEKA storage optimization solutions

6.5x множник GPU токенів від WEKA змінює правила гри у сфері AI сховищ

15 кві 20265 хв. читанняSarah Chen

// У ЦІЙ СТАТТІ

01Що сталося 02Технічна анатомія 03Хто постраждає 04План дій для команд даних 05Ключові висновки 06Часті запитання

Оголошення WEKA 16 березня з конкретною цифрою, яка має змусити кожну команду AI інфраструктури призупинитися: у 6.5 разів більше токенів на GPU для робочих навантажень виведення. Це не поступове покращення. Це той множник, який переписує економіку розгортання для команд, що спалюють виділення H100 як венчурний капітал.

Постачальник сховищ із Сан-Хосе просуває свою платформу NeuralMesh AI Data Platform як відсутню ланку між демо-версіями доказу концепції та виробничими AI фабриками. Побудована на основі еталонного дизайну NVIDIA AI Data Platform, вона позиціонується як готова інфраструктура для підприємств, які довели, що їхні моделі працюють, але не можуть масштабувати їх прибутково.

Що сталося

WEKA оголосила про загальну доступність NeuralMesh 16 березня 2026 року, як повідомив HPCwire, позиціонуючи її як готове для підприємств рішення на основі еталонної архітектури NVIDIA. Платформа обіцяє стиснути терміни AI проектів з місяців до хвилин, заява, підкріплена тим 6.5x множником токенів при роботі з їхньою Augmented Memory Grid.

Час узгоджується з ширшими галузевими сигналами. Звіт SoftServe від 14 квітня показує, що 98 відсотків підприємств очікують, що агентський AI прискорить доставку програмного забезпечення протягом двох років. Між тим, Cloudera виявила, що майже 80 відсотків підприємств кажуть, що AI стримується викликами доступу до даних. WEKA робить ставку, що ці дві точки даних створюють ідеальний шторм попиту.

«Підприємства зараз розгортають AI фабрики внутрішньо, спричиняючи великий зсув до виведення по всій екосистемі», — сказав Ліран Звібель, співзасновник і генеральний директор WEKA. Платформа включає готові до використання конвеєри для семантичного пошуку, пошуку відео та узагальнення, AlphaFold для відкриття ліків та реалізації агентського RAG.

WEKA побудувала NeuralMesh на основі понад 170 патентів, накопичених за десятиліття розробки AI-нативного сховища. Компанія стверджує, що 30 відсотків Fortune 50 вже довіряють NeuralMesh, хоча джерело не уточнює, чи це для цієї нової платформи або більш широкого портфоліо сховищ WEKA.

Технічна анатомія

6.5x множник токенів розкриває справжню інженерну історію тут. Традиційні архітектури сховищ змушують GPU чекати на переміщення даних, створюючи печально відому проблему «голодування GPU», де ваш прискорювач за 40 000 доларів проводить більшість циклів у простої. Augmented Memory Grid від WEKA, здається, функціонує як масивний рівень кешу, який зберігає контекст виведення гарячим і локальним для обчислень.

Платформа інтегрує GPU NVIDIA RTX 6000 PRO Server Edition разом із нещодавно оголошеними блоками RTX 4500 PRO Server Edition. Це не типове розгортання H100/A100, яке ми бачимо в кластерах навчання. WEKA робить ставку на оптимізоване для виведення обладнання, яке торгує сирими FLOPS на кращу пропускну здатність пам'яті та нижче енергоспоживання.

NeuralMesh постачається як система у стилі пристрою з партнерствами, що охоплюють Red Hat, Spectro Cloud та Supermicro. Модель пристрою важлива, оскільки вона обходить податок на інтеграцію, який вбиває більшість проектів AI інфраструктури. Команди отримують попередньо перевірені конфігурації замість витрачання місяців на налагодження конфліктів драйверів і вузьких місць мережі.

Джейсон Харді, віце-президент технологій сховищ у NVIDIA, підкреслив зосередженість платформи на «безперервному, узгодженому потоці даних і контексту виведення». Це NVIDIA-мова для вирішення проблеми вікна контексту у виробничих агентських системах. Коли агенти повинні підтримувати стан через мільйони взаємодій, традиційні архітектури об'єктного сховища ламаються. Вам потрібно щось, що ставиться до контексту як до громадянина першого класу, а не як до доповнення.

Джерело не розкриває конкретних чисел затримки або бенчмарків IOPS, які допомогли б підтвердити 6.5x заяву. Ми також не знаємо базової лінії, з якою вони порівнюють, хоча галузевим стандартом було б порівняння з S3-сумісними об'єктними сховищами або традиційними розгортаннями NFS.

Хто постраждає

Pure Storage і NetApp стикаються з найбільш негайним тиском. Обидві компанії модернізували традиційні архітектури сховищ для AI робочих навантажень, але портфоліо 170 патентів WEKA свідчить про те, що вони будували для цього випадку використання з першого дня. FlashBlade від Pure і ONTAP AI від NetApp не були розроблені з постійністю контексту виведення як основним примітивом.

Висновок Cloudera, що 80 відсотків підприємств називають доступ до даних як свій AI вузьке місце, ставить кожного традиційного постачальника сховищ під увагу. Якщо WEKA може забезпечити навіть половину обіцяного прискорення, це переналаштовує очікування клієнтів щодо того, що сховище має вносити в AI економіку.

Компанії платформ виведення, такі як BentoML, Seldon і KServe, можливо, повинні переархітектувати свої рівні кешування. Вони вирішували проблему контексту в програмному забезпеченні, оскільки рівень сховища не міг встигати. 6.5x покращення на рівні інфраструктури робить застарілими багато з їхніх оптимізацій.

Справжніми постраждалими можуть бути AI сервіси гіперскейлерів. AWS SageMaker, Google Vertex AI і Azure ML всі припускають відносно повільні рівні сховища, компенсовані агресивним кешуванням на рівні екземпляра. Якщо підприємства можуть отримати у 6.5 разів кращу пропускну здатність токенів на власних серверах, перевага маржі хмарних провайдерів випаровується. Їм потрібно буде або прийняти подібну технологію, або погодитися бути відведеними лише до робочих навантажень навчання.

План дій для команд даних

Почніть з аудиту ваших поточних витрат на інфраструктуру виведення. Розрахуйте токени за долар, а не лише токени за секунду. Якщо ви запускаєте виведення на хмарних платформах, змоделюйте, що означатиме 6.5x підвищення ефективності для ваших щомісячних рахунків. Це число стає вашим бюджетним обґрунтуванням для оцінки альтернатив на власних серверах.

Запитайте бенчмарки від WEKA, використовуючи ваші конкретні архітектури моделей. 6.5x заява потребує валідації проти ваших шаблонів робочого навантаження. Зосередьтеся на 95-м перцентилі затримок під виробничим навантаженням, а не лише на числах пропускної здатності. Угоди про рівень обслуговування виведення живуть і вмирають на хвостових затримках.

Для команд, які вже використовують обладнання NVIDIA, дослідіть, чи може NeuralMesh накладатися на існуючі розгортання. GPU RTX 6000 і 4500 PRO свідчать про те, що це спрямовано на різні робочі навантаження, ніж кластери навчання H100. Ви можете зберегти хмару для навчання, перемістивши виведення на власні сервери.

Уважно розгляньте компроміс операційної складності. Системи пристроїв зменшують тягар інтеграції, але створюють прив'язку до постачальника. Оцініть, чи має ваша команда експертизу для експлуатації ще одного рівня сховища, навіть якщо він нібито готовий до використання. Джерело згадує партнерства Red Hat і Spectro Cloud, припускаючи інтеграцію з Kubernetes, але операційні деталі залишаються розрідженими.

Ключові висновки

WEKA стверджує про у 6.5 разів більше токенів на GPU для робочих навантажень виведення з NeuralMesh, хоча базове порівняння та методологія тестування не розкрито
Платформа націлена на розрив між доказом концепції AI та виробництвом, де 80 відсотків підприємств повідомляють про блокування прогресу доступом до даних
Побудована на 170 патентах з еталонною архітектурою NVIDIA, включає GPU RTX 6000 і 4500 PRO замість традиційного обладнання навчання H100/A100
Якщо заяви про продуктивність підтвердяться, це може змістити робочі навантаження виведення назад на власні сервери та змусити хмарних провайдерів переглянути економіку своїх AI сервісів
Стежте за незалежними бенчмарками у Q2 2026: якщо кілька клієнтів підтвердять 6.5x заяву, очікуйте спроби придбання Pure Storage і NetApp до кінця року

Часті запитання

Q: Що робить заяву WEKA про 6.5x токенів значущою для виробничих розгортань AI?

Більшість підприємств бачать використання GPU нижче 30 відсотків у виведенні через вузькі місця сховища. 6.5x покращення означає, що той самий флот GPU може обробляти у 6 разів більше користувацьких запитів, кардинально змінюючи економіку одиниці AI продуктів. Однак WEKA не розкрила, з якою базовою лінією вони порівнюють.

Q: Чим NeuralMesh відрізняється від традиційних підходів сховища для AI?

Традиційне сховище ставиться до AI робочих навантажень як до будь-якого іншого шаблону доступу до даних. NeuralMesh здається спеціально побудованою для підтримки контексту виведення через мільйони агентських взаємодій, з їхньою Augmented Memory Grid, що зберігає часто доступний контекст гарячим і локальним для обчислювальних ресурсів.

Q: Чи повинні команди розглядати це для робочих навантажень навчання або лише виведення?

Вибір обладнання (RTX 6000 і 4500 PRO) і акцент на контексті виведення свідчать про те, що це спрямовано на виробниче виведення, а не навчання. Команди, що займаються розподіленим навчанням на кластерах H100, повинні оцінювати окремо, оскільки цілі оптимізації значно відрізняються між навчальною та інференсною інфраструктурою.

Sarah Chen

RiverCore Analyst · Dublin, Ireland

// RELATED ARTICLES

Labcorp скорочує підготовку даних щодо Альцгеймера з місяців до хвилин

Labcorp, AWS і Datavant запустили агентну RWD-платформу, яка стверджує про скорочення часу запитів з місяців до хвилин на тлі витрат на Альцгеймер у $380 млрд. Невідомі чинники мають значення.

Snowflake та Databricks піднімаються по стеку ШІ: будувати чи купувати — вирішуй зараз

Snowflake і Databricks рухаються до рівня System of Intelligence. Ось що керівники платформ мають вирішити до поновлення контрактів у Q3.

GetHookd робить ставку на креативну аналітику замість таргетингу Meta

Оновлення платформи GetHookd спирається на діагностику креативів і моніторинг конкурентів для протидії деградації таргетингу Meta. Ставка: креативні дані — це нові дані про аудиторію.