DeepSeek V4 выходит в открытый доступ на Hugging Face
Представьте грузовой двор в полночь. Большинство вагонов стоят в темноте, освещаются только те, что везут сегодняшний груз, а рельсы между ними переложены так, чтобы поезда могли миновать целые станции. Это мысленная модель того, что DeepSeek выпустил сегодня, и, как в любой хорошей железнодорожной сети, самое интересное — не локомотив, а пути.
Китайская лаборатория выложила два открытых источника на Hugging Face под общим названием V4 и без лишнего шума сравнила флагман с Claude Opus 4.6. Никаких пресс-туров, никаких презентаций. Только веса.
Что произошло
24 апреля 2026 года DeepSeek опубликовал серию открытых языковых моделей V4, как сообщил SiliconANGLE. С места в карьер вышли две модели: V4-Pro — флагман, и V4-Flash — меньший собрат, который жертвует частью качества вывода ради экономии на железе.
Обе построены по архитектуре mixture-of-experts. V4-Pro содержит 1,6 триллиона параметров, но для любого запроса активирует лишь 49 миллиардов. V4-Flash — 284 миллиарда параметров при 13 миллиардах активных. Аналогия с грузовым двором работает: огромная станция, маленький рабочий состав.
Главная архитектурная новинка — то, что DeepSeek называет гибридным механизмом внимания. Он применяет два разных метода сжатия к KV-кэшу, и результат — сокращение памяти KV при инференсе на 90% по сравнению с предыдущим поколением DeepSeek. Любой, кто видел, как задание инференса на длинном контексте упирается в стену памяти в три часа ночи, оценит, что это число значит на практике.
Стоит назвать ещё два элемента. mHC позволяет данным перепрыгивать напрямую между удалёнными слоями сети, минуя промежуточные кластеры и снижая ошибку обучения. А программный модуль Muon оптимизирует скрытые слои, ускоряет обучение и снижает инфраструктурные затраты.
Предобучение прошло примерно на 27 триллионах токенов. Пост-обучение было двухэтапным: сначала оптимизировали каждую экспертную сеть в отдельности, затем учили их взаимодействовать. DeepSeek прогнал V4-Pro примерно через два десятка бенчмарков, сравнив с ведущими моделями, включая Claude Opus 4.6. V4-Pro занял первое место на трёх бенчмарках и обошёл часть конкурентов на остальных. Не полный разгром. Убедительный результат. Обе модели сейчас доступны в режиме предпросмотра на Hugging Face.
Техническая анатомия
Скучная часть, она же самая важная, — работа с KV-кэшем. Механизмы внимания работают не с сырым текстом запроса, а с математическим представлением, называемым KV-кэшем, и этот кэш раздувается вместе с длиной контекста. Это тихий убийца экономики инференса. Кажется, что платишь за параметры — на самом деле платишь за память KV при длинном контексте.
То, что DeepSeek объединил два метода сжатия вместо одного, говорит об атаке на разные части кривой затрат. Один метод, вероятно, нацелен на избыточность между токенами, другой — между головами или слоями. Цифра в 90% сокращения, если выдержит независимые тесты, меняет расчёты для любой команды, запускающей длинноконтекстный инференс на обычных GPU.
Далее — mHC. Сигнал идёт напрямую между несмежными слоями, минуя скрытую машинерию между ними. В терминах градиентов это родственник skip-соединений, но применённый к потоку данных во время обучения, а не только к остаточным путям. Это решает проблему, на которой всё рушится в глубоком MoE-обучении: накопление ошибок через цепочки слоёв, пока поверхность потерь не выходит из-под контроля.
Muon, оптимизатор скрытых слоёв, — непривлекательная деталь, которая реально двигает бюджетную стрелку. Вычисления при обучении — крупнейшая статья расходов в любой передовой программе. Всё, что сокращает реальное время прогона на 27 триллионах токенов, окупается в мегаваттах.
Двухэтапное пост-обучение демонстрирует зрелость в работе с MoE. Независимая оптимизация экспертов перед тем, как их учат работать сообща, — именно такой учебный подход отличает исследовательскую лабораторию с опытом MoE от той, что только читает статьи. Потеря координации — это налог, который MoE-архитектуры платят за разреженность. DeepSeek рассматривает её как первоочередную цель обучения, а не как побочный эффект.
Кто пострадает
Anthropic и OpenAI не потеряют сон из-за V4 напрямую. Лидеры закрытых моделей конкурируют на уровне интегрированного продукта, экосистем файн-тюнинга и корпоративных контрактов, которые открытый выпуск весов не пробьёт за одну ночь. Но ценовой пол смещается. Каждый раз, когда убедительная открытая модель оказывается в пределах досягаемости от фронтирных бенчмарков, защищать поцентровую экономику закрытых API в длинном хвосте кейсов становится сложнее.
Первыми ощутят это операторы GPU-аренды для инференса и второразрядные закрытые вендоры. Если V4-Flash действительно обеспечивает дешёвый инференс при 13 миллиардах активных параметров, fintech-команда, строящая функцию нарративного описания транзакций, или iGaming-оператор, модерирующий контент в масштабе, получает бесплатную модель для самостоятельного хостинга, конкурирующую с платными API, которые они котировали в прошлом квартале.
Комплаенс-команды в регулируемых отраслях получают новую головную боль. Открытая китайская модель — это одновременно вопрос закупок, вопрос резидентности данных и вопрос происхождения модели. Большинство EU-финтехов и британских лицензированных операторов не выпустят V4 в продакшен без серьёзной юридической проверки, как бы хороши ни были бенчмарки. Такая проверка занимает минимум 90 дней в любой организации уровня банка.
В выигрыше окажется сообщество инференс-инфраструктуры. vLLM, SGLang, разработчики TGI — все, чей стек способен переварить новую MoE-топологию и оригинальную схему сжатия KV-кэша, увидят волну работ по интеграции. То же касается сообщества квантизации: модель MoE на 1,6 триллиона параметров с крошечным активным следом — именно тот тип модели, которую агрессивно квантизируют в течение нескольких недель. Ждите 4-битных и 2-битных вариантов от сообщества на Hugging Face ещё до конца мая.
Руководство для AI-разработки
Если вы CTO или технический лидер платформы, вот что важно сделать на этой неделе.
Во-первых, разверните V4-Flash на тестовом кластере и сравните его с тем закрытым API, за который вы сейчас платите, по трём наиболее высоконагруженным рабочим нагрузкам. Не самым сложным, а самым объёмным. Именно там живёт разница в стоимости. Флагман V4-Pro интересен, но V4-Flash при 13 миллиардах активных параметров — это модель, которая изменит ваш счёт.
Во-вторых, относитесь к заявлению о KV-кэше как к гипотезе, а не к факту. Проведите собственные тесты с длинным контекстом. Если 90% сокращение памяти сохранится на вашем распределении запросов, можно пересмотреть размер инференс-инстансов. Если оно проявляется только на коротких запросах — это тоже полезно, просто менее значимо.
В-третьих, опередите разговор о закупках. Если вы работаете в iGaming, платежах или любой отрасли с регулятором, читающим новости, ваш комплаенс-лид спросит об открытых китайских моделях в течение месяца. Подготовьте письменную позицию заранее: откуда взяты веса, какие данные касались модели, в какой изоляции вы её запустите.
В-четвёртых, следите за агентным аспектом. Производительность при использовании инструментов и структурированном выводе не вынесена в бенчмарки запуска. Прежде чем встраивать V4 в что-либо похожее на агентный цикл, проверьте его на реальных трассах вызовов инструментов в сравнении с вашим базовым уровнем Claude. Победы во фронтирных бенчмарках не всегда переводятся в чистое поведение при вызове функций.
Ключевые выводы
- DeepSeek выпустил V4-Pro (1,6T параметров, 49B активных) и V4-Flash (284B параметров, 13B активных) как открытые MoE-модели на Hugging Face.
- Гибридное внимание с двойным сжатием KV обеспечивает 90% сокращение памяти при инференсе по сравнению с предыдущим поколением DeepSeek.
- V4-Pro превзошёл Claude Opus 4.6 и других фронтирных соперников на трёх из примерно двух десятков бенчмарков — убедительный, но не доминирующий результат.
- Механизм пропуска слоёв mHC и оптимизатор скрытых слоёв Muon снизили ошибку обучения и инфраструктурные затраты в ходе предобучения на 27 триллионах токенов.
- Процедуры закупок и комплаенс-проверки открытых китайских моделей будут ограничивать их внедрение в регулируемых отраслях сильнее, чем результаты бенчмарков.
Возвращаясь к грузовому двору: локомотив привлекает фотографов, но железнодорожные компании, побеждающие в долгосрочной перспективе, — это те, кто тихо перекладывает рельсы. DeepSeek сегодня выпустил не самую громкую модель. Они выпустили модель, под которой пути заметно лучше, чем у конкурентов. Вот на что стоит обратить внимание.
Часто задаваемые вопросы
В: Что такое DeepSeek V4 и чем он отличается от предыдущих моделей?
V4 — это новое семейство открытых языковых моделей DeepSeek, включающее две модели: V4-Pro на 1,6 триллиона параметров и V4-Flash на 284 миллиарда. Главное изменение — гибридный механизм внимания, сокращающий потребление памяти KV-кэша при инференсе на 90% по сравнению с предыдущим поколением, а также новые оптимизации обучения: mHC и Muon.
В: Как V4-Pro сравнивается с Claude Opus 4.6?
DeepSeek сравнил V4-Pro с несколькими фронтирными моделями, включая Claude Opus 4.6, в ходе примерно двух десятков тестов. V4-Pro обошёл всех конкурентов на трёх бенчмарках и превзошёл часть из них на нескольких других. Это конкурентный результат, а не полный разгром.
В: Могут ли предприятия реально развернуть V4 в продакшене?
Веса доступны в режиме предпросмотра на Hugging Face, так что технически — да. На практике регулируемые отрасли, такие как fintech и iGaming, должны будут пройти процедуры закупок и комплаенс-проверки, касающиеся происхождения открытой китайской модели, обработки данных и изоляции, прежде чем любой продакшен-деплой станет возможным. Рассчитывайте минимум на 90-дневный цикл проверки.
GPT-5.5 вышел: OpenAI снова возглавляет гонку frontier-моделей
GPT-5.5 от OpenAI: ускорение токенов на 20%, результат Terminal-Bench 82,7% и пока нет доступа к API. Что должны планировать платформенные команды в этом квартале.
Взлом Itron вынуждает технических директоров коммунальных служб пересмотреть риски поставщиков
Itron раскрыла информацию о взломе внутренних IT-систем, затрагивающем поставщика, управляющего 112 млн точек учёта. Архитектурные и контрактные последствия глубже, чем следует из 8-K.
Налог в 1 секунду: почему скорость мобильного сайта — это архитектурное решение
Задержка в одну секунду на мобильном снижает конверсию на 20%. Для руководителей платформ — это не баг фронтенда, а решение «build vs buy» на столе у CFO.

