menu
close

Google представляет Gemma 3n: мощный мультимодальный ИИ для мобильных устройств

Google выпустила Gemma 3n — революционную мультимодальную модель искусственного интеллекта, разработанную для эффективной работы на пользовательских устройствах с объемом памяти от 2 ГБ. Модель способна обрабатывать аудио, текст, изображения и видео, функционируя локально на смартфонах, планшетах и ноутбуках. Эта архитектура с приоритетом мобильных устройств, созданная в сотрудничестве с производителями оборудования, такими как Qualcomm, MediaTek и Samsung, знаменует собой значительный шаг вперед в обеспечении доступа к мощному ИИ без необходимости подключения к облаку.
Google представляет Gemma 3n: мощный мультимодальный ИИ для мобильных устройств

Google официально представила Gemma 3n — свою новейшую открытую мультимодальную модель искусственного интеллекта, специально разработанную для мобильных и edge-устройств. Этот релиз знаменует собой важный этап в развитии ИИ, предоставляя продвинутые возможности непосредственно на пользовательском оборудовании без необходимости обработки в облаке.

Gemma 3n выпускается в двух вариантах, различающихся эффективным числом параметров: E2B и E4B. Хотя фактическое количество параметров составляет 5 млрд и 8 млрд соответственно, архитектурные инновации позволяют запускать их с объемом памяти, сопоставимым с традиционными моделями на 2 млрд и 4 млрд параметров, при этом требуется всего 2 ГБ (E2B) и 3 ГБ (E4B) оперативной памяти. Такая эффективность достигается благодаря ряду технических новшеств, включая архитектуру MatFormer и послойные эмбеддинги.

Модель изначально поддерживает работу с изображениями, аудио, видео и текстом, а на выходе генерирует текст. Расширенные аудиовозможности обеспечивают высококачественное автоматическое распознавание речи (транскрипцию) и перевод устной речи в текст. Кроме того, модель принимает смешанные входные данные разных типов, что позволяет ей понимать сложные мультимодальные взаимодействия.

Для обработки визуальной информации в Gemma 3n используется высокоэффективный визуальный энкодер MobileNet-V5-300M, обеспечивающий передовые показатели для мультимодальных задач на edge-устройствах. Этот энкодер нативно поддерживает несколько разрешений входных данных (256x256, 512x512 и 768x768 пикселей), отлично справляется с широким спектром задач по пониманию изображений и видео и способен обрабатывать до 60 кадров в секунду на смартфоне Google Pixel.

Версия E4B достигает оценки LMArena выше 1300, став первой моделью с числом параметров менее 10 млрд, преодолевшей этот рубеж. Gemma 3n демонстрирует улучшения качества в области многоязычности, поддерживая 140 языков для текстовой и мультимодальной обработки 35 языков, а также обладает расширенными возможностями в математике, программировании и логическом рассуждении.

Конфиденциальность пользователей — один из ключевых аспектов: локальное выполнение позволяет реализовать функции, уважающие личные данные и работающие стабильно даже без подключения к интернету. Модель создана в тесном сотрудничестве с ведущими производителями мобильного оборудования, такими как Qualcomm Technologies, MediaTek и подразделением System LSI компании Samsung, и оптимизирована для сверхбыстрого мультимодального ИИ, обеспечивая по-настоящему персональный и приватный опыт прямо на устройствах.

Полноценный релиз последовал за предварительным показом на Google I/O в мае 2025 года. Теперь модель доступна через популярные фреймворки, включая Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama и MLX. Этот масштабный запуск открывает разработчикам возможности для создания нового поколения интеллектуальных приложений, способных понимать и реагировать на окружающий мир прямо на устройствах пользователей.

Source:

Latest News