Google выпустила Gemma 4 12B: ИИ для аудио и видео на ПК

3 июня 2026 г.

Google представила открытую модель ИИ Gemma 4 12B, которая анализирует аудио и видео. Она работает локально на обычном ноутбуке с 16 ГБ ОЗУ.

Логотип Google Gemma 4 12B на фоне абстрактных нейронных сетей, символизирующих ИИ и аналитику.

Google представила Gemma 4 12B, новую открытую модель с 11.95 миллиардами параметров. Её релиз состоялся 3 июня 2026 года. Модель оптимизировали для локальной работы на обычных корпоративных ноутбуках, требуя всего 16 ГБ видеопамяти или объединенной памяти. Это позволяет использовать ИИ без подключения к сети, что важно для безопасности и экономии.

Модель распространяется по лицензии Apache 2.0. Главное её новшество — архитектура «Unified» без энкодеров. Она позволяет напрямую обрабатывать аудио и визуальные данные, минуя промежуточные модули. Это снижает задержки и потребление памяти. Например, визуальный энкодер заменяет модуль на 35 миллионов параметров, а аудиоэнкодер полностью убрали. Для команд инженеров это означает меньшую задержку для мультимодальных задач, сокращение требований к VRAM и возможность тонкой настройки всей системы за один проход.

Gemma 4 12B уже доступна на Hugging Face, Kaggle и в Google AI Edge Gallery. Модель поддерживает контекстное окно в 256 тысяч токенов. Это полезно для обработки длинных финансовых отчетов или больших объемов кода. Она также имеет встроенные функции для работы с агентами и режим пошагового рассуждения. Несмотря на компактный размер, модель показывает результаты, близкие к более крупной 26-миллиардной модели Google Mixture-of-Experts.

Применять Gemma 4 12B стоит, если нужны граничные вычисления, строгая конфиденциальность данных или автоматизация с помощью агентов. Модель подходит для компаний в регулируемых отраслях, таких как здравоохранение или финансы. Локальное выполнение на ноутбуках исключает риск утечки данных. Если в планах есть автономные агенты, взаимодействующие с реальным миром, Gemma 4 12B может стать их основой. Она хорошо работает с функцией вызова, кодированием и обработкой аудио/изображений в реальном времени. Для поддержки разработки агентов Google выпустила репозиторий Gemma Skills.

Модель также выгодна для граничных развертываний, где постоянное облачное подключение дорого или невозможно. Архитектура без энкодеров снижает общую стоимость владения, уменьшая требования к оборудованию. Это помогает избежать постоянных затрат на API и непредсказуемых счетов за облачные вычисления.

Однако Gemma 4 12B не универсальна. Если основная задача — обширный поиск фактов без использования Retrieval-Augmented Generation, могут потребоваться более крупные базовые модели. Модель имеет ограничения на обработку медиа: аудио до 30 секунд, видео до 60 секунд (при одном кадре в секунду). Для длинных видео или больших аудиоархивов стоит рассмотреть другие решения.

Модель хорошо интегрируется с открытым исходным кодом. Веса доступны на Hugging Face и Kaggle. Она совместима с vLLM, SGLang, MLX и llama.cpp. Для пользователей Google Cloud есть быстрая интеграция через Gemini Enterprise Agent Platform Model Garden, Cloud Run или Google Kubernetes Engine. Gemma 4 12B предлагает редкое сочетание эффективности для граничных устройств и продвинутых возможностей рассуждения. Организациям, которым нужна приватная мультимодальная обработка без задержек и затрат на облако, стоит внимательно изучить эту модель для своих производственных задач.