Google представляет Gemma 3n: мощный мультимодальный ИИ для мобильных устройств

Google выпустила Gemma 3n — революционную мультимодальную модель искусственного интеллекта, разработанную для эффективной работы на пользовательских устройствах с объемом памяти от 2 ГБ. Модель способна обрабатывать аудио, текст, изображения и видео, функционируя локально на смартфонах, планшетах и ноутбуках. Эта архитектура с приоритетом мобильных устройств, созданная в сотрудничестве с производителями оборудования, такими как Qualcomm, MediaTek и Samsung, знаменует собой значительный шаг вперед в обеспечении доступа к мощному ИИ без необходимости подключения к облаку.

Google официально представила Gemma 3n — свою новейшую открытую мультимодальную модель искусственного интеллекта, специально разработанную для мобильных и edge-устройств. Этот релиз знаменует собой важный этап в развитии ИИ, предоставляя продвинутые возможности непосредственно на пользовательском оборудовании без необходимости обработки в облаке.

Gemma 3n выпускается в двух вариантах, различающихся эффективным числом параметров: E2B и E4B. Хотя фактическое количество параметров составляет 5 млрд и 8 млрд соответственно, архитектурные инновации позволяют запускать их с объемом памяти, сопоставимым с традиционными моделями на 2 млрд и 4 млрд параметров, при этом требуется всего 2 ГБ (E2B) и 3 ГБ (E4B) оперативной памяти. Такая эффективность достигается благодаря ряду технических новшеств, включая архитектуру MatFormer и послойные эмбеддинги.

Модель изначально поддерживает работу с изображениями, аудио, видео и текстом, а на выходе генерирует текст. Расширенные аудиовозможности обеспечивают высококачественное автоматическое распознавание речи (транскрипцию) и перевод устной речи в текст. Кроме того, модель принимает смешанные входные данные разных типов, что позволяет ей понимать сложные мультимодальные взаимодействия.

Для обработки визуальной информации в Gemma 3n используется высокоэффективный визуальный энкодер MobileNet-V5-300M, обеспечивающий передовые показатели для мультимодальных задач на edge-устройствах. Этот энкодер нативно поддерживает несколько разрешений входных данных (256x256, 512x512 и 768x768 пикселей), отлично справляется с широким спектром задач по пониманию изображений и видео и способен обрабатывать до 60 кадров в секунду на смартфоне Google Pixel.

Версия E4B достигает оценки LMArena выше 1300, став первой моделью с числом параметров менее 10 млрд, преодолевшей этот рубеж. Gemma 3n демонстрирует улучшения качества в области многоязычности, поддерживая 140 языков для текстовой и мультимодальной обработки 35 языков, а также обладает расширенными возможностями в математике, программировании и логическом рассуждении.

Конфиденциальность пользователей — один из ключевых аспектов: локальное выполнение позволяет реализовать функции, уважающие личные данные и работающие стабильно даже без подключения к интернету. Модель создана в тесном сотрудничестве с ведущими производителями мобильного оборудования, такими как Qualcomm Technologies, MediaTek и подразделением System LSI компании Samsung, и оптимизирована для сверхбыстрого мультимодального ИИ, обеспечивая по-настоящему персональный и приватный опыт прямо на устройствах.

Полноценный релиз последовал за предварительным показом на Google I/O в мае 2025 года. Теперь модель доступна через популярные фреймворки, включая Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama и MLX. Этот масштабный запуск открывает разработчикам возможности для создания нового поколения интеллектуальных приложений, способных понимать и реагировать на окружающий мир прямо на устройствах пользователей.

Source:

Google представляет Gemma 3n: мощный мультимодальный ИИ для мобильных устройств

Latest News

OpenTools.AI запускает ежедневный AI Дайджест для профессионалов отрасли

Беспилотники с ИИ от Helsing меняют стратегию обороны Украины

Бывший технический директор OpenAI привлекла рекордные $2 млрд для стартапа в сфере ИИ

EraDrive из Стэнфорда заключила контракт с NASA на $1 млн для разработки ИИ-технологий в космосе

Голливудские гиганты против AI-компании: знаковое дело о нарушении авторских прав

Революция ИИ меняет ландшафт федеральных тендеров

Nvidia укрепляет лидерство в сфере ИИ на фоне рекордных темпов роста

Интерфейс мозг-компьютер на базе ИИ превращает мысли в слова

Китай сокращает отставание от США в сфере ИИ, выяснили в RAND

Фотонные квантовые чипы улучшают работу ИИ и сокращают энергопотребление

Google представляет Gemma 3n: мощный мультимодальный ИИ для мобильных устройств

Related Articles

OpenTools.AI запускает ежедневный AI Дайджест для профессионалов отрасли

Китай сокращает отставание от США в сфере ИИ, выяснили в RAND

Meta запускает масштабную инициативу в области ИИ на $65 млрд с новым лабораторным центром суперинтеллекта

TomTom сокращает рабочие места на фоне трансформации компании под влиянием искусственного интеллекта

Anthropic запускает новую исследовательскую инициативу по изучению экономического влияния ИИ

Latest News

OpenTools.AI запускает ежедневный AI Дайджест для профессионалов отрасли

Беспилотники с ИИ от Helsing меняют стратегию обороны Украины

Бывший технический директор OpenAI привлекла рекордные $2 млрд для стартапа в сфере ИИ

EraDrive из Стэнфорда заключила контракт с NASA на $1 млн для разработки ИИ-технологий в космосе

Голливудские гиганты против AI-компании: знаковое дело о нарушении авторских прав

Революция ИИ меняет ландшафт федеральных тендеров

Nvidia укрепляет лидерство в сфере ИИ на фоне рекордных темпов роста

Интерфейс мозг-компьютер на базе ИИ превращает мысли в слова

Китай сокращает отставание от США в сфере ИИ, выяснили в RAND

Фотонные квантовые чипы улучшают работу ИИ и сокращают энергопотребление