Google Gemma 4 вышла под Apache 2.0: Лицензия важнее тестов

2 апреля 2026 г.

Google выпустила Gemma 4 с лицензией Apache 2.0. Это изменение может быть важнее, чем улучшенные характеристики модели для бизнеса.

Логотип Google Gemma 4 и символ лицензии Apache 2.0, показывающий новую открытую политику

Google DeepMind представила новую линейку открытых моделей искусственного интеллекта Gemma 4. Главное изменение — переход на стандартную лицензию Apache 2.0, что значительно упрощает их использование для бизнеса и разработчиков.

Предыдущие версии Gemma сталкивались с ограничениями из-за собственной лицензии Google. Она предусматривала условия использования, которые компания могла менять, что создавало юридические сложности для многих компаний. Теперь Gemma 4 предлагает те же условия, что и другие популярные открытые модели, например Mistral или Qwen. Это решение Google особенно заметно на фоне того, как некоторые китайские ИИ-лаборатории, включая Alibaba с их Qwen3.5 Omni и Qwen 3.6 Plus, наоборот, начинают отходить от полностью открытых релизов. Архитектура Gemma 4 основана на исследованиях коммерческой модели Gemini 3.

Семейство Gemma 4 включает четыре модели, разделённые на два уровня развёртывания:

Уровень для рабочих станций: Сюда входят плотная модель с 31 миллиардом параметров и модель Mixture-of-Experts (MoE) 26B A4B. Обе поддерживают ввод текста и изображений, а также контекстное окно в 256 тысяч токенов.
Уровень для периферийных устройств (Edge): Модели E2B и E4B. Это компактные решения для телефонов, встраиваемых устройств и ноутбуков. Они работают с текстом, изображениями и аудио, предлагая контекстное окно в 128 тысяч токенов.

Названия моделей содержат важные детали. Буква «E» в E2B означает «эффективные параметры». Например, E2B имеет 2,3 миллиарда эффективных параметров при 5,1 миллиарда общих, используя технологию Per-Layer Embeddings (PLE). Это позволяет модели работать как 2B, но при этом быть крупнее на диске. Буква «A» в 26B A4B означает «активные параметры». Из 25,2 миллиарда общих параметров MoE модели, во время инференса активируются только 3,8 миллиарда. Это обеспечивает производительность уровня 26B при вычислительных затратах, сравнимых с 4B моделью.

Такая архитектура даёт гибкость в развёртывании. MoE модель может работать на обычных потребительских GPU. Для 31B плотной модели потребуется более мощное оборудование, например NVIDIA H100 или RTX 6000 Pro. Google также предоставляет чекпоинты Quantization-Aware Training (QAT) для сохранения качества при более низкой точности. В Google Cloud обе модели для рабочих станций теперь можно запускать в бессерверной конфигурации через Cloud Run с GPU NVIDIA RTX Pro 6000, что позволяет масштабировать ресурсы до нуля при простое. Модель MoE использует 128 маленьких экспертов, из которых восемь активируются на каждый токен плюс один всегда активный. Это позволяет достичь производительности, сравнимой с плотными моделями в диапазоне 27–31B, но со скоростью работы примерно как у 4B модели, что значительно снижает затраты на инференс.

Gemma 4 изначально поддерживает мультимодальность. Все четыре модели обрабатывают изображения с переменным соотношением сторон и настраиваемым бюджетом визуальных токенов (от 70 до 1120). Это улучшение по сравнению с Gemma 3n, особенно для OCR и понимания документов. Поддерживается ввод нескольких изображений и видео. Edge-модели также имеют встроенную обработку аудио, включая автоматическое распознавание речи и перевод речи в текст прямо на устройстве. Аудио-энкодер был уменьшен до 305 миллионов параметров, а длительность кадра сократилась до 40 мс. Функция вызова (function calling) также встроена во все модели, что упрощает создание агентных систем с несколькими инструментами.

Бенчмарки показывают значительный прогресс. Плотная модель 31B набрала 89,2% на AIME 2026, 80,0% на LiveCodeBench v6 и достигла ELO 2150 на Codeforces. Модель MoE показала 88,3% на AIME 2026, 77,1% на LiveCodeBench и 82,3% на GPQA Diamond. Разница в производительности между MoE и плотной версиями невелика, учитывая преимущество MoE в стоимости инференса. Edge-модели также демонстрируют хорошие результаты: E4B — 42,5% на AIME 2026 и 52,0% на LiveCodeBench; E2B — 37,5% и 44,0%. Они значительно превосходят Gemma 3 27B, несмотря на меньший размер. На рынке есть сильные конкуренты, такие как Qwen 3.5, GLM-5 и Kimi K2.5, но Gemma 4 выделяется сочетанием мощного рассуждения, встроенной мультимодальности (текст, зрение, аудио), function calling, большого контекста и по-настоящему открытой лицензии.

Google выпускает как предобученные базовые модели, так и версии, настроенные на выполнение инструкций. Это важно для компаний, планирующих дорабатывать модели под свои задачи. Лицензия Apache 2.0 теперь снимает все вопросы о коммерческом использовании таких доработанных версий. Возможность бессерверного развертывания через Cloud Run с поддержкой GPU может изменить экономику использования открытых моделей в производстве, особенно для внутренних инструментов и приложений с невысокой нагрузкой. Google намекнула, что это может быть не вся линейка Gemma 4, и в будущем появятся новые размеры моделей. Однако текущий набор — мощные модели для рабочих станций и мультимодальные модели для периферийных устройств, все под Apache 2.0 и основанные на исследованиях Gemini 3 — представляет собой самый полный открытый релиз от Google на сегодняшний день.