Gemma 4 QATon-device AIquantization-aware trainingGemma 4 E2B 1GB memory footprinton-device AI deployment mobile

Gemma 4 QAT Зменшує E2B до 1GB: Математика On-Device AI Змінилася

7 чер 20267 хв. читанняMarina Koval

// У ЦІЙ СТАТТІ

01Що Відбулося 02Технічна Анатомія 03Хто Опиняється Під Удараром 04Стратегія для AI-Розробки 05Ключові Висновки 06Часті Запитання

Питання, яке кожен керівник платформи з мобільним або десктопним AI-роадмапом повинен поставити своєму CFO цього тижня: чи виправдана стаття витрат на hosted-inference у бюджеті наступного року? Google DeepMind щойно випустила Quantization-Aware Training чекпоінти для сімейства Gemma 4, і головна цифра — 1GB пам'яті для edge-моделі E2B — це саме той показник, який змінює хід архітектурних нарад. Для команд, які шість місяців тому відмовлялися від on-device розгортання через обмеження RAM на середньобюджетному обладнанні, технічне виправдання щойно зникло.

Що Відбулося

5 червня 2026 року Олів'є Лакомб та Омар Сансев'єро з Google DeepMind анонсували новий набір чекпоінтів Gemma 4, оптимізованих за допомогою Quantization-Aware Training, як повідомив blog.google. Це відбувається приблизно через два місяці після початкового релізу Gemma 4 і є третім значним оновленням за цей час. Спочатку Google додала Multi-Token Prediction для прискорення інференсу, потім кілька днів тому випустила модель на 12B, щоб заповнити прогалину між E4B та 26B mixture-of-experts варіантом. Випуск QAT завершує чітку продуктову дугу: випустити модель, прискорити її, заповнити сходинки за розміром, а потім зменшити споживання пам'яті.

Реліз охоплює два окремі треки квантизації. По-перше, популярний формат Q4_0 отримує QAT-чекпоінти для всієї лінійки — це формат, який більшість десктопних ентузіастів знають з llama.cpp. По-друге, і це цікавіше з точки зору платформ, Google розробила нову схему квантизації спеціально для мобільних сценаріїв, застосовану до edge-моделей E2B та E4B. Ключовий результат: Gemma 4 E2B тепер поміщається в 1GB пам'яті, а конфігурація лише для тексту без Per-Layer Embeddings займає менше 1GB.

Дистрибуція навмисно широка. Ваги розміщені на Hugging Face у форматах GGUF для llama.cpp, стиснених тензорів для vLLM та неквантизованих чекпоінтів для команд, які хочуть конвертувати в інші Q4_0-сумісні цільові формати. Десктопні рантайми отримали підтримку llama.cpp, Ollama та LM Studio з перших кроків. Edge отримав рантайм LiteRT-LM від Google. Веб отримав Transformers.js. Apple Silicon отримав MLX. Більші моделі отримали SGLang та vLLM. MTP QAT чекпоінти також доступні, тож командам не потрібно вибирати між прискоренням і стисненням, а файнтюнінг підтримується через Hugging Face Transformers та Unsloth.

Технічна Анатомія

QAT сам по собі не є новиною. Суть підходу: симулювати квантизацію під час навчання, щоб ваги моделі адаптувалися до втрати точності, а не стискалися постфактум із сподіванням, що якість збережеться. Стандартна Post-Training Quantization, домінуючий підхід у більшості сучасних open-weights пайплайнів, розглядає стиснення як фінальний крок. Твердження Google полягає в тому, що QAT дає вищу загальну якість порівняно з PTQ-базовими лініями, що узгоджується з тим, що більша наукова спільнота спостерігає вже два роки. Цікава частина — не QAT загалом, а те, що вони зробили для мобільної схеми.

Чотири дизайнерські рішення мають значення. Статичні активації попередньо обчислюються під час навчання, а не на льоту, що означає: мобільний чіп перестає витрачати цикли на масштабування даних під час інференсу. Поканальна квантизація структурована відповідно до розміщення, якого очікують мобільні акселератори, що дозволяє уникнути повільних програмних запасних варіантів, які історично перетворювали квантизований інференс на телефонах на вправу для бенчмаркінгу, а не виробничу реальність. Цільова 2-бітна квантизація застосовується лише до частин моделі, відповідальних за генерацію токенів, тоді як основні шари мислення залишаються на вищій точності. Саме це дизайнерське рішення обґрунтовує заяву про якість: можна безжально стискати ті частини мережі, які не несуть навантаження.

Четверте рішення — саме звідси і береться цифра 1GB. Стиснення зосереджене на списку словникових одиниць (embeddings) та KV cache — короткостроковій пам'яті моделі під час генерації. Embeddings та KV cache, як правило, домінують у активній пам'яті малих моделей, тому їх пряма атака перетворює історію "працює на флагманському телефоні" на "працює на середньостатистичному Android-пристрої". Додайте можливість вилучення аудіо та відеоенкодерів, коли вони не потрібні, і текстова конфігурація E2B комфортно вкладається в менш ніж гігабайт.

Одна деталь, на яку варто звернути увагу технічним керівникам: MTP QAT чекпоінти зберігають прискорення Multi-Token Prediction після квантизації. Це важливо, тому що в більшості пайплайнів квантизації трюки прискорення інференсу та трюки стиснення конфліктують між собою. Google поставила обидва.

Хто Опиняється Під Удараром

Найбільш вразлива група — постачальники hosted-inference, які продають доступ до API малих моделей для сценаріїв, яким насправді не потрібні хмарні моделі. Якщо ваш продукт звертається до hosted-ендпоінту з 7B або 8B для класифікації, підсумовування, парсингу намірів або функцій on-device асистента, то Gemma 4 E2B розміром 1GB, що локально працює на пристрої користувача, є прямою загрозою для юніт-економіки. Питання для CFO формулюється само собою: при якій кількості щомісячних активних користувачів оплата інференсу по токенах стає дорожчою, ніж одноразове завантаження? Для споживчих додатків із мільйонами MAU ця математика вже деякий час не на користь hosted малих моделей, а цей реліз закручує гвинт ще більше.

Головний юрисконсульт будь-якого регульованого фінтеху або iGaming-оператора повинен цього тижня поставити керівнику платформи інше питання: які з наших поточних AI-функцій, що стосуються PII або KYC даних, ми могли б перенести на пристрій, і як це вплине на нашу позицію щодо резидентності даних? On-device інференс — найчистіша регуляторна позиція з доступних, адже дані ніколи не залишають пристрій. Модель у 1GB, що поміщається на пристрій середньостатистичного користувача, робить цю позицію доступною для продуктових команд, які раніше мусили доводити її технічну нездійсненність.

Стартапи у сфері AI-інфраструктури середнього ринку займають найбільш незручну позицію. Компанії, що продають послугу "ми розмістимо вашу файнтюнену малу модель", стиснуті зверху цінами гіперскейлерів на інференс та знизу справді придатними для використання on-device варіантами. Їхня презентація для інвесторів потребує переписування. Тим часом найм у мобільній AI-інженерії ось-ось стане цікавим. Командам, які два роки будували навколо LLM-викликів на стороні сервера, тепер потрібні інженери, які справді розуміють формати квантизації, рантайми для акселераторів і різницю між LiteRT-LM та MLX. Цей кадровий резерв тонкий, і ринок праці відповідно оцінить його протягом наступних двох кварталів.

Стратегія для AI-Розробки

Для керівників платформ, які в наступні 90 днів приймають архітектурні рішення з бюджетом від шести до восьми цифр, три дії повинні бути в порядку денному цього тижня. По-перше, прорахуйте юніт-економіку для ваших трьох найважливіших AI-функцій, виходячи з on-device інференсу для 80-го перцентиля пристроїв користувачів. Якщо точка беззбитковості досяжна протягом 18 місяців, стаття витрат на hosted-API є кандидатом на рефакторинг, а не постійним рядком. Порівняйте свої цифри з опублікованими тарифами від Gemini або конкуруючих API, щоб конкретизувати розрив.

По-друге, проаудируйте, яким із ваших функцій справді потрібна frontier-модель, а які використовують можливості рівня GPT-4 для завдань, із якими міг би впоратися квантизований E2B. Класифікація, структуроване витягування даних, генерація коротких текстів та маршрутизація — очевидні кандидати. Чесна відповідь для більшості продуктових поверхонь: від 30 до 60 відсотків LLM-викликів є надмірно забезпеченими, і ви платите за можливості frontier-моделі за завдання, з якими модель у 1GB справляється чудово.

По-третє, запустіть proof-of-concept гібридного розгортання з LiteRT-LM або Transformers.js на платформах, на які ви реально поставляєте продукт. Не дозвольте цьому перетворитися на шестимісячний дослідницький проєкт. Інструментарій тепер достатньо зрілий, щоб досвідчений мобільний інженер мав робочу демонстрацію за два тижні. Стратегічна цінність — не сама демонстрація, а дані, які ви принесете на наступні переговори з постачальником hosted-inference. Ваша позиція на цих переговорах змінюється в момент, коли ви можете достовірно пригрозити відходом.

Ключові Висновки

Gemma 4 E2B у 1GB робить on-device інференс доступним на середньостатистичному споживчому обладнанні, а не лише на флагманських телефонах.
QAT у поєднанні з цільовою 2-бітною квантизацією шарів генерації токенів зберігає якість мислення, атакуючи при цьому ті частини моделі, які домінують у споживанні пам'яті.
Бізнес hosted API для малих моделей зазнає реального цінового тиску, оскільки локальна альтернатива стає справді придатною для використання.
Регульовані галузі отримують чистішу позицію щодо резидентності даних при перенесенні інференсу на пристрій — і юрисконсульт вже повинен це моделювати.
Мобільні AI-інженери (формати квантизації, рантайми акселераторів, LiteRT-LM, MLX) ось-ось стануть вузьким місцем у найманні. Команди, що оцінюють свій AI-роадмап, повинні вже зараз запитати себе, чи передбачають їхні поточні вендорські контракти умови виходу, що відповідають швидкості цих змін.

Часті Запитання

П: Що таке Quantization-Aware Training і чому це важливо для Gemma 4?

QAT симулює процес квантизації під час навчання моделі, а не застосовує його як постфактумний крок стиснення. Google DeepMind повідомляє, що це дає вищу загальну якість порівняно зі стандартними базовими лініями Post-Training Quantization — саме це й робить можливим агресивне стиснення на кшталт 1GB footprint для E2B без неприйнятної втрати якості.

П: Чи можуть моделі Gemma 4 QAT справді працювати на звичайному телефоні?

Модель E2B поміщається в 1GB пам'яті завдяки мобільній схемі квантизації Google, а конфігурація лише для тексту без Per-Layer Embeddings займає менше 1GB. У поєднанні з рантаймом LiteRT-LM для edge-розгортання це ставить модель у межах досяжності середньостатистичного споживчого мобільного обладнання, а не лише флагманських пристроїв.

П: Які інструменти підтримують нові чекпоінти Gemma 4 QAT?

Google реалізувала підтримку через llama.cpp, Ollama та LM Studio для десктопу, LiteRT-LM для edge, Transformers.js для вебу, SGLang та vLLM для обслуговування більших моделей, та MLX для Apple Silicon. Ваги розміщені на Hugging Face у форматах GGUF та стиснених тензорів, з підтримкою файнтюнінгу через Hugging Face Transformers та Unsloth.

Marina Koval

RiverCore Analyst · Dublin, Ireland

// СХОЖІ СТАТТІ