Gemma 4 QAT: модель E2B занимает 1 ГБ — математика ИИ на устройстве изменилась
Вопрос, который каждый руководитель платформы с мобильным или десктопным AI-роадмапом должен задать своему финансовому директору на этой неделе: по-прежнему ли оправдана строка «облачный инференс» в бюджете следующего года? Google DeepMind только что выпустила чекпоинты с Quantization-Aware Training для семейства Gemma 4, и ключевая цифра — занимаемая память в 1 ГБ для граничной модели E2B — способна изменить ход архитектурных совещаний. Для команд, которые полгода назад отвергали развёртывание на устройстве, ссылаясь на ограничения оперативной памяти в устройствах среднего класса, технического оправдания больше не существует.
Что произошло
5 июня 2026 года Оливье Лакомб и Омар Сансевьеро из Google DeepMind анонсировали новый набор чекпоинтов Gemma 4, оптимизированных с помощью Quantization-Aware Training, как сообщил blog.google. Это происходит примерно через два месяца после первоначального релиза Gemma 4 и является третьим значимым обновлением за этот период. Google сначала добавила Multi-Token Prediction для ускорения инференса, затем выпустила модель 12B — чтобы заполнить разрыв между E4B и 26B mixture-of-experts вариантом. Выпуск QAT завершает чёткую продуктовую дугу: выпустить модель, ускорить её, заполнить размерную линейку, затем радикально сократить занимаемую память.
Релиз охватывает два различных трека квантизации. Во-первых, популярный формат Q4_0 получает QAT-чекпоинты по всей линейке — это формат, хорошо знакомый любителям llama.cpp на десктопах. Во-вторых, и это интереснее с точки зрения платформы, Google создала новую схему квантизации специально для мобильных сценариев, применив её к граничным моделям E2B и E4B. Ключевой результат: Gemma 4 E2B теперь умещается в 1 ГБ оперативной памяти, а конфигурация только для текста без Per-Layer Embeddings опускается ниже 1 ГБ.
Дистрибуция намеренно широкая. Веса доступны на Hugging Face в форматах GGUF для llama.cpp, сжатых тензорах для vLLM и неквантизованных чекпоинтах для команд, которые хотят конвертировать их в другие Q4_0-совместимые форматы. Десктопные решения получают поддержку llama.cpp, Ollama и LM Studio из коробки. Граничные устройства — рантайм LiteRT-LM от Google. Веб — Transformers.js. Apple Silicon — MLX. Большие модели — SGLang и vLLM. MTP QAT чекпоинты также доступны, так что командам не нужно выбирать между ускорением и сжатием. Дообучение поддерживается через Hugging Face Transformers и Unsloth.
Техническая составляющая
Сам QAT не является новинкой. Суть в том, чтобы симулировать квантизацию в процессе обучения, позволяя весам модели адаптироваться к потере точности, вместо того чтобы сжимать их постфактум в надежде сохранить качество. Стандартное Post-Training Quantization — доминирующий подход в большинстве рабочих процессов с открытыми весами сегодня — рассматривает сжатие как финальный шаг. Утверждение Google состоит в том, что QAT обеспечивает более высокое общее качество по сравнению с базовыми PTQ-подходами, что согласуется с тем, что более широкое исследовательское сообщество наблюдает уже два года. Интересна не столько сама концепция QAT, сколько то, что было сделано для мобильной схемы.
Принципиально важны четыре конструктивных решения. Статические активации предварительно вычисляются во время обучения, а не рассчитываются на лету — это означает, что мобильный чип перестаёт тратить циклы на масштабирование данных во время инференса. Поканальная квантизация структурирована так, чтобы соответствовать компоновке, которую ожидают мобильные акселераторы, избегая медленных программных резервных механизмов, которые исторически превращали квантизованный инференс на телефонах в сугубо бенчмарковое упражнение, а не реальное производство. Целевая 2-битная квантизация применяется только к частям модели, отвечающим за генерацию токенов, тогда как ключевые слои рассуждения остаются на более высокой точности. Именно это конструктивное решение обеспечивает заявления о качестве: можно безжалостно сжимать части сети, которые не несут основной нагрузки.
Четвёртое решение — это то, откуда фактически берётся цифра в 1 ГБ. Сжатие сосредоточено на словаре (эмбеддингах) и KV-кэше — краткосрочной памяти модели во время генерации. Эмбеддинги и KV-кэш, как правило, доминируют в активной памяти небольших моделей, поэтому прямая атака на них превращает историю «работает на флагманском телефоне» в историю «работает на среднестатистическом Android-устройстве». Добавьте возможность отключить аудио- и визуальные энкодеры, когда они не нужны, и текстовая версия E2B спокойно умещается менее чем в гигабайт.
Одна деталь, на которую стоит обратить внимание техническим руководителям: MTP QAT чекпоинты сохраняют ускорение Multi-Token Prediction после квантизации. Это важно, потому что в большинстве пайплайнов квантизации трюки для ускорения инференса и трюки для сжатия конфликтуют друг с другом. Google поставила и то, и другое.
Кто пострадает
Наиболее уязвимая группа — поставщики облачного инференса, продающие API-доступ к небольшим моделям для сценариев, которые на самом деле не требуют облачных моделей. Если ваш продукт обращается к облачному эндпоинту с моделью 7B или 8B для классификации, суммаризации, парсинга намерений или функций ассистента на устройстве, то Gemma 4 E2B в 1 ГБ, работающая локально на устройстве пользователя — прямая угроза экономике юнита. Вопрос к финансовому директору формулируется сам собой: при каком количестве месячных активных пользователей оплата поточного инференса становится дороже, чем однократная загрузка модели? Для потребительских приложений с миллионами MAU этот расчёт для небольших облачных моделей уже давно перевернулся, а данный релиз только закручивает гайки.
Главный юрисконсульт любого регулируемого финтех-оператора или оператора iGaming должен на этой неделе задать руководителю платформы другой вопрос: какие из наших текущих AI-функций, работающих с персональными данными или данными KYC, мы могли бы перенести на устройство, и как это изменит нашу позицию в отношении резидентности данных? Инференс на устройстве — это самая чистая доступная регуляторная история, поскольку данные никогда не покидают устройство. Модель в 1 ГБ, умещающаяся на среднестатистическом пользовательском устройстве, делает такую позицию доступной для продуктовых команд, которые ранее вынуждены были доказывать её техническую нецелесообразность.
Стартапы в области AI-инфраструктуры среднего рынка занимают наиболее неудобное положение. Компании, продающие «мы будем хостить вашу дообученную небольшую модель», зажаты сверху ценами на инференс от гиперскейлеров и снизу — реально пригодными к использованию локальными вариантами. Их презентации для инвесторов требуют переработки. Тем временем найм в области мобильной AI-разработки вот-вот станет очень интересным. Командам, которые два года строили архитектуру вокруг серверных LLM-вызовов, теперь нужны инженеры, которые действительно понимают форматы квантизации, рантаймы для конкретных акселераторов и разницу между LiteRT-LM и MLX. Этот кадровый резерв невелик, и рынок труда соответствующим образом оценит его в течение следующих двух кварталов.
Тактика для разработки AI
Для руководителей платформ, принимающих архитектурные решения ценой от шести до восьми цифр в ближайшие 90 дней, три действия должны быть в повестке этой недели. Во-первых, проведите расчёт экономики юнита для трёх ваших главных AI-функций, исходя из инференса на устройстве для 80-го перцентиля пользовательских устройств. Если точка безубыточности достижима в пределах 18 месяцев, строка «облачный API» — это цель для рефакторинга, а не постоянный элемент. Сравните свои цифры с опубликованными тарифами Gemini или конкурирующих API, чтобы сделать разрыв конкретным.
Во-вторых, проверьте, какие из ваших функций действительно требуют передовой модели, а какие используют возможности уровня GPT-4 для задач, с которыми справится квантизованная E2B. Классификация, структурированное извлечение данных, генерация коротких текстов и маршрутизация — очевидные кандидаты. Честный ответ для большинства продуктовых поверхностей таков: от 30 до 60 процентов LLM-вызовов избыточно ресурсоёмки, и вы платите по ценам передовой модели за задачи, с которыми справляется модель в 1 ГБ.
В-третьих, запустите proof-of-concept гибридного развёртывания с LiteRT-LM или Transformers.js на платформах, которые вы реально используете. Не позволяйте этому превратиться в шестимесячный исследовательский проект. Инструментарий теперь достаточно зрелый, чтобы опытный мобильный разработчик создал рабочее демо за две недели. Стратегическая ценность — не само демо, а данные, которые вы принесёте на следующие переговоры с поставщиком облачного инференса. Переговорная позиция меняется в тот момент, когда вы можете достоверно встать и уйти.
Ключевые выводы
- Gemma 4 E2B в 1 ГБ делает инференс на устройстве жизнеспособным на среднестатистическом потребительском железе, а не только на флагманских телефонах.
- QAT в сочетании с целевой 2-битной квантизацией на слоях генерации токенов сохраняет качество рассуждений, атакуя при этом части модели, которые доминируют в памяти.
- Бизнес на облачных API для небольших моделей испытывает реальное ценовое давление по мере того, как локальная альтернатива становится по-настоящему пригодной к использованию.
- Регулируемые отрасли получают более чистую историю с резидентностью данных, когда инференс переносится на устройство, — это уже должен моделировать главный юрисконсульт.
- Экспертиза в области мобильного AI (форматы квантизации, рантаймы акселераторов, LiteRT-LM, MLX) вот-вот станет узким местом при найме. Команды, оценивающие свой AI-роадмап, должны уже сейчас задаться вопросом: есть ли в их текущих контрактах с поставщиками пункт о выходе, соответствующий скорости этих изменений.
Часто задаваемые вопросы
В: Что такое Quantization-Aware Training и почему это важно для Gemma 4?
QAT симулирует процесс квантизации в ходе обучения модели, а не применяет его как постфактумный шаг сжатия. Google DeepMind сообщает, что это обеспечивает более высокое общее качество по сравнению со стандартными базовыми подходами Post-Training Quantization, что и делает возможным агрессивное сжатие — например, E2B с занимаемой памятью 1 ГБ — без неприемлемой потери качества.
В: Могут ли модели Gemma 4 QAT реально работать на обычном телефоне?
Модель E2B умещается в 1 ГБ оперативной памяти благодаря мобильной схеме квантизации Google, а текстовая конфигурация без Per-Layer Embeddings опускается ниже 1 ГБ. В сочетании с рантаймом LiteRT-LM для граничного развёртывания это делает модель доступной для среднестатистического потребительского мобильного железа, а не только для флагманских устройств.
В: Какие инструменты поддерживают новые QAT-чекпоинты Gemma 4?
Google обеспечила поддержку llama.cpp, Ollama и LM Studio для десктопа, LiteRT-LM для граничных устройств, Transformers.js для веба, SGLang и vLLM для обслуживания более крупных моделей, а также MLX для Apple Silicon. Веса доступны на Hugging Face в форматах GGUF и сжатых тензорах. Дообучение поддерживается через Hugging Face Transformers и Unsloth.
Pinterest делает ставку на $4 млрд в AWS Silicon для своего ИИ-будущего
Pinterest подписал сделку на $4 млрд с AWS на шесть лет, сделав ставку на кастомные чипы для визуального поиска и нового разговорного ассистента. Разбираемся, что реально покупает эта сделка.
Project Deal от Anthropic: 186 сделок, $4 000 и оценка справедливости 4/7
Project Deal от Anthropic: 69 сотрудников, 186 сделок на $4 000+ на маркетплейсе в Slack, оценка справедливости — 4/7. Стратегический разрыв с OpenAI и Google теперь очевиден.
Foxconn и Intel объединяются в сфере ИИ-инфраструктуры на фоне падения акций на 5,18%
Foxconn и Intel объявили о партнёрстве в области ИИ-инфраструктуры: кастомный кремний и полный стек дата-центров. Рынок ответил падением акций Foxconn на 5,18%.



