DeepSeek V4open-source AIHugging FaceDeepSeek V4 open-source MoE modelDeepSeek V4 vs Claude Opus

DeepSeek V4 виходить у відкритий доступ на Hugging Face

25 кві 20266 хв. читанняJames O'Brien

// У ЦІЙ СТАТТІ

01Що сталося 02Технічна анатомія 03Хто постраждає 04Посібник для розробки AI 05Ключові висновки 06Часті запитання

Уявіть вантажний двір опівночі. Більшість вагонів стоять у темряві — освітлені лише ті, що везуть сьогоднішній вантаж, а рейки між ними прокладено так, щоб потяги могли оминати цілі станції. Ось як виглядає те, що DeepSeek випустив сьогодні. І як у будь-якій хорошій залізничній мережі, найцікавіше — не локомотив, а колія.

Китайська лабораторія викотила два відкритих моделі на Hugging Face під назвою серії V4 і тихо порівняла флагман з Claude Opus 4.6. Жодного прес-туру, жодної презентації. Просто ваги.

Що сталося

24 квітня 2026 року DeepSeek опублікував серію V4 відкритокодних великих мовних моделей, як SiliconANGLE повідомив. Два варіанти одразу: V4-Pro — флагман, і V4-Flash — менший побратим, який поступається якістю виводу в обмін на нижчі вимоги до заліза.

Обидві моделі побудовані за принципом mixture-of-experts. V4-Pro має 1.6 трильйона параметрів, але для будь-якого конкретного запиту задіює лише 49 мільярдів. V4-Flash — 284 мільярди параметрів з 13 мільярдами активних. Аналогія з вантажним двором тримається: величезний двір, маленький активний потяг.

Головна архітектурна новинка — це те, що DeepSeek називає гібридним механізмом уваги. Він використовує два різні методи стиснення KV кешу, і результат — скорочення пам'яті KV під час інференсу на 90% порівняно з попереднім поколінням DeepSeek. Кожен, хто спостерігав, як завдання з довгим контекстом впирається в ліміт пам'яті о третій ночі, розуміє, що ця цифра означає на практиці.

Ще два компоненти варті уваги. mHC дозволяє даним стрибати напряму між віддаленими шарами мережі, оминаючи проміжні кластери й зменшуючи похибку навчання. А програмний модуль Muon оптимізує приховані шари, прискорюючи навчання й зменшуючи витрати на інфраструктуру.

Передпідготовка проходила на приблизно 27 трильйонах токенів. Постпідготовка складалася з двох етапів: спочатку оптимізація кожної мережі експертів окремо, потім — навчання їх координації. DeepSeek протестував V4-Pro приблизно на двох десятках бенчмарків проти провідних конкурентів, включаючи Claude Opus 4.6. V4-Pro вийшов на перше місце в трьох бенчмарках, в інших — обійшов частину суперників. Не тріумф. Але переконливий результат. Обидві моделі вже доступні в режимі попереднього перегляду на Hugging Face.

Технічна анатомія

Найнудніша частина — вона ж і найцікавіша — це робота з KV кешем. Механізми уваги працюють не з сирим текстом запиту, а з математичним представленням, яке називається KV кешем, і цей кеш розростається разом із довжиною контексту. Це тихий вбивця інференс-економіки. Ви думаєте, що платите за параметри, але насправді платите за KV пам'ять при довгому контексті.

Те, що DeepSeek поєднав два методи стиснення (замість вибору одного), свідчить про атаку на різні частини кривої витрат. Один метод, ймовірно, усуває надлишковість між токенами, інший — між головами або шарами. Якщо цифра 90% підтвердиться незалежним тестуванням, вона змінює розрахунки для будь-якої команди, що запускає довгоконтекстний інференс на доступних GPU.

Далі — mHC. Сигнал іде напряму між несуміжними шарами, оминаючи проміжний механізм між ними. З точки зору градієнтів це родич skip connections, але застосований до потоку даних під час навчання, а не лише до залишкових шляхів. Він вирішує проблему, де все розсипається у глибокому навчанні MoE: накопичення похибки через ланцюги шарів до того, як поверхня втрат іде шкереберть.

Muon — оптимізатор прихованих шарів — нудна деталь, яка насправді рухає бюджетну стрілку. Обчислення для навчання — найбільша стаття витрат у будь-якій провідній програмі. Все, що скорочує астрономічний час на 27 трильйонах токенів, повертається в мегаватах.

Двоетапна постпідготовка — ось де видно справжню MoE-спадщину. Оптимізація експертів окремо, а потім — навчання їх злагодженій роботі, це саме той підхід, який відрізняє дослідницьку лабораторію з досвідом у MoE від тієї, що читає лише статті. Втрата координації — це плата, яку MoE-архітектури платять за розрідженість. DeepSeek ставиться до неї як до першочергової мети навчання, а не як до побічного ефекту.

Хто постраждає

Anthropic та OpenAI не втрачають сон через V4 безпосередньо. Лідери закритих моделей конкурують на рівні інтегрованого продукту, екосистем тонкого налаштування та корпоративних контрактів, які жоден відкритий дроп не підірве за ніч. Але ціновий поріг зміщується. Щоразу, коли переконлива відкрита модель виходить на достатній рівень для зіставлення з провідними бенчмарками, утримувати економіку per-token для закритих API на довгому хвості застосувань стає важче.

Першими відчують це оренд-GPU сервіси для інференсу та закриті вендори другого ешелону. Якщо V4-Flash справді забезпечує дешевий інференс при 13 мільярдах активних параметрів, fintech-команда, що будує функцію пояснення транзакцій, або iGaming-оператор, що запускає модерацію контенту у великих масштабах, отримує безкоштовну модель для самостійного розгортання, яка конкурує з платними API, що вони цитували минулого кварталу.

Команди з комплаєнсу в регульованих галузях отримують нову проблему. Відкрита китайська модель — це одночасно питання закупівель, питання місця зберігання даних і питання походження моделі. Я б стверджував, що більшість EU fintech-компаній та операторів із UK-ліцензією не запустять V4 у виробництво без серйозної юридичної перевірки, незалежно від того, наскільки привабливі бенчмарки. Ця перевірка займає мінімум 90 днів у будь-якій компанії банківського рівня.

Виграють провайдери інференс-інфраструктури. vLLM, SGLang, мейнтейнери TGI — всі, чий стек здатен засвоїти нову MoE-топологію та нову схему стиснення KV кешу, побачать хвилю інтеграційних робіт. Те саме стосується спільноти квантизації: 1.6 трильйонна MoE з мінімальним активним відбитком — це саме той тип моделі, яку агресивно квантизують протягом тижнів. Очікуйте 4-бітних і 2-бітних варіантів від спільноти на Hugging Face ще до кінця травня.

Посібник для розробки AI

Якщо ви CTO або керівник платформи — ось тиждень, що має значення.

По-перше, завантажте V4-Flash на стейджинг-кластер і порівняйте його з тим закритим API, за який ви зараз платите, на трьох найбільш навантажених задачах. Не найскладніших — найбільш навантажених. Там живе різниця у вартості. Флагман V4-Pro цікавий, але V4-Flash з 13 мільярдами активних параметрів — це модель, яка змінить ваш рахунок.

По-друге, сприймайте заявку про KV кеш як гіпотезу, а не факт. Проведіть власні тести з довгим контекстом. Якщо 90% скорочення пам'яті підтвердиться для вашого розподілу промптів, можна переосмислити розміри інференс-інстансів. Якщо це працює тільки для коротких промптів — теж корисно, просто менш суттєво.

По-третє, підготуйтеся до розмови про закупівлі заздалегідь. Якщо ви працюєте в iGaming, платіжній сфері або будь-якій галузі з регулятором, що читає новини, ваш комплаєнс-менеджер запитає про китайські відкриті моделі протягом місяця. Підготуйте письмову позицію заздалегідь. Звідки взялися ваги, які дані торкнулися моделі, в якій ізоляції ви її запустите.

По-четверте, стежте за агентним аспектом. Робота з інструментами та ефективність структурованого виводу не відображені у стартових бенчмарках. Перш ніж підключити V4 до чогось схожого на агентний цикл, протестуйте його проти вашого базового рівня Claude на реальних слідах викликів інструментів. Перемоги у провідних бенчмарках не завжди перетворюються на чисту поведінку виклику функцій.

Ключові висновки

DeepSeek випустив V4-Pro (1.6T параметрів, 49B активних) і V4-Flash (284B параметрів, 13B активних) як відкриті MoE моделі на Hugging Face.
Гібридна увага з подвійним стисненням KV забезпечує скорочення пам'яті на 90% під час інференсу порівняно з попереднім поколінням DeepSeek.
V4-Pro обійшов Claude Opus 4.6 та інших провідних конкурентів у трьох із приблизно двох десятків бенчмарків — переконливий, але не домінуючий результат.
Механізм пропуску шарів mHC та оптимізатор прихованих шарів Muon зменшили похибку навчання та витрати на інфраструктуру під час передпідготовки на 27 трильйонах токенів.
Перевірки закупівель і комплаєнсу для китайських відкритих моделей більше обмежуватимуть впровадження в регульованих галузях, ніж самі бенчмарки.

Повернемося до вантажного двору. Локомотив потрапляє на фото, але залізничні компанії, що перемагають у довгостроковій перспективі, — це ті, хто тихо перекладає колію. DeepSeek сьогодні не випустив найгучнішу модель. Вони випустили модель, під якою рейки помітно кращі за ті, на яких їздять чинні лідери. Ось що варто спостерігати.

Часті запитання

Q: Що таке DeepSeek V4 і чим він відрізняється від попередніх моделей?

V4 — це нова відкрита LLM-сімейство DeepSeek з двома моделями: V4-Pro на 1.6 трильйона параметрів і V4-Flash на 284 мільярди. Головна зміна — гібридний механізм уваги, що скорочує використання пам'яті KV кешу під час інференсу на 90% порівняно з попереднім поколінням, а також нові оптимізації навчання: mHC і Muon.

Q: Як V4-Pro порівнюється з Claude Opus 4.6?

DeepSeek протестував V4-Pro проти кількох провідних моделей, включаючи Claude Opus 4.6, приблизно на двох десятках тестів. V4-Pro обійшов усіх конкурентів у трьох бенчмарках і перевершив частину суперників в інших. Це конкурентний результат, але не тотальна перемога.

Q: Чи можуть підприємства реально розгортати V4 у виробництві?

Ваги доступні в режимі попереднього перегляду на Hugging Face, тому технічно — так. На практиці регульовані галузі, як-от fintech та iGaming, мають пройти перевірки закупівель і комплаєнсу щодо походження китайської відкритої моделі, обробки даних та ізоляції перед будь-яким виробничим розгортанням. Розраховуйте мінімум на 90-денний цикл перевірки.

James O'Brien

RiverCore Analyst · Dublin, Ireland

// RELATED ARTICLES

GPT-5.5 вийшов: OpenAI повертає лідерство серед фронтирних моделей

OpenAI випустила GPT-5.5 із приростом швидкості токенів на 20%, результатом 82.7% на Terminal-Bench і без API. Ось що варто планувати командам цього кварталу.

Злам Itron змушує CTO комунальних служб переглянути ризики від вендорів

Itron розкрила інформацію про внутрішній IT-злам, що торкається вендора, який керує 112 мільйонами кінцевих точок комунальних служб. Наслідки для архітектури та закупівель виходять далеко за межі того, що зазначено у звіті 8-K.

Податок в 1 секунду: чому швидкість мобільних — це рішення про архітектуру

Затримка в одну секунду на мобільних знижує конверсію на 20%. Для керівників платформ це не баг фронтенду, а рішення про build-vs-buy на столі фінансового директора.