Google официально представила Gemma 3n — свою новейшую открытую мультимодальную модель искусственного интеллекта, специально разработанную для мобильных и edge-устройств. Этот релиз знаменует собой важный этап в развитии ИИ, предоставляя продвинутые возможности непосредственно на пользовательском оборудовании без необходимости обработки в облаке.
Gemma 3n выпускается в двух вариантах, различающихся эффективным числом параметров: E2B и E4B. Хотя фактическое количество параметров составляет 5 млрд и 8 млрд соответственно, архитектурные инновации позволяют запускать их с объемом памяти, сопоставимым с традиционными моделями на 2 млрд и 4 млрд параметров, при этом требуется всего 2 ГБ (E2B) и 3 ГБ (E4B) оперативной памяти. Такая эффективность достигается благодаря ряду технических новшеств, включая архитектуру MatFormer и послойные эмбеддинги.
Модель изначально поддерживает работу с изображениями, аудио, видео и текстом, а на выходе генерирует текст. Расширенные аудиовозможности обеспечивают высококачественное автоматическое распознавание речи (транскрипцию) и перевод устной речи в текст. Кроме того, модель принимает смешанные входные данные разных типов, что позволяет ей понимать сложные мультимодальные взаимодействия.
Для обработки визуальной информации в Gemma 3n используется высокоэффективный визуальный энкодер MobileNet-V5-300M, обеспечивающий передовые показатели для мультимодальных задач на edge-устройствах. Этот энкодер нативно поддерживает несколько разрешений входных данных (256x256, 512x512 и 768x768 пикселей), отлично справляется с широким спектром задач по пониманию изображений и видео и способен обрабатывать до 60 кадров в секунду на смартфоне Google Pixel.
Версия E4B достигает оценки LMArena выше 1300, став первой моделью с числом параметров менее 10 млрд, преодолевшей этот рубеж. Gemma 3n демонстрирует улучшения качества в области многоязычности, поддерживая 140 языков для текстовой и мультимодальной обработки 35 языков, а также обладает расширенными возможностями в математике, программировании и логическом рассуждении.
Конфиденциальность пользователей — один из ключевых аспектов: локальное выполнение позволяет реализовать функции, уважающие личные данные и работающие стабильно даже без подключения к интернету. Модель создана в тесном сотрудничестве с ведущими производителями мобильного оборудования, такими как Qualcomm Technologies, MediaTek и подразделением System LSI компании Samsung, и оптимизирована для сверхбыстрого мультимодального ИИ, обеспечивая по-настоящему персональный и приватный опыт прямо на устройствах.
Полноценный релиз последовал за предварительным показом на Google I/O в мае 2025 года. Теперь модель доступна через популярные фреймворки, включая Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama и MLX. Этот масштабный запуск открывает разработчикам возможности для создания нового поколения интеллектуальных приложений, способных понимать и реагировать на окружающий мир прямо на устройствах пользователей.