Google офіційно представила Gemma 3n — свою новітню відкриту мультимодальну модель штучного інтелекту, спеціально розроблену для мобільних і периферійних пристроїв. Цей реліз є важливою віхою на шляху до впровадження передових можливостей ШІ безпосередньо у споживчу електроніку без необхідності обробки в хмарі.
Gemma 3n випускається у двох розмірах за ефективними параметрами: E2B та E4B. Хоча фактична кількість параметрів становить відповідно 5B і 8B, архітектурні інновації дозволяють моделі працювати з обсягом пам’яті, порівнянним із традиційними моделями на 2B і 4B параметрів — тобто, для роботи E2B потрібно лише 2 ГБ, а для E4B — 3 ГБ оперативної пам’яті. Така ефективність досягається завдяки низці технічних нововведень, зокрема архітектурі MatFormer та Per-Layer Embeddings.
Модель є по-справжньому мультимодальною за задумом: вона нативно підтримує введення зображень, аудіо, відео та тексту, а також генерує текстові відповіді. Розширені аудіоможливості забезпечують якісне автоматичне розпізнавання мовлення (транскрипцію) та переклад із мовлення у текст. Крім того, модель приймає змішані введення різних типів, що дозволяє їй розуміти складні мультимодальні взаємодії.
Для обробки зображень у Gemma 3n використовується високоефективний візуальний енкодер MobileNet-V5-300M, який забезпечує найкращі результати для мультимодальних завдань на периферійних пристроях. Енкодер нативно підтримує кілька роздільних здатностей (256x256, 512x512 та 768x768 пікселів), відмінно справляється із широким спектром завдань з розуміння зображень і відео та може обробляти до 60 кадрів на секунду на Google Pixel.
Версія E4B досягає оцінки LMArena понад 1300, що робить її першою моделлю з менш ніж 10 мільярдами параметрів, яка досягла такого результату. Gemma 3n демонструє покращення якості у багатомовності: підтримує 140 мов для тексту й мультимодальне розуміння 35 мов, а також має розширені можливості у математиці, програмуванні та логічному мисленні.
Конфіденційність є ключовою особливістю: локальне виконання дозволяє реалізувати функції, що поважають приватність користувача і працюють надійно навіть без підключення до інтернету. Модель створювалася у тісній співпраці з лідерами мобільного апаратного забезпечення — Qualcomm Technologies, MediaTek і підрозділом System LSI компанії Samsung, та оптимізована для надшвидкої мультимодальної роботи ШІ, забезпечуючи справді персональний і приватний досвід безпосередньо на пристроях.
Повноцінний реліз відбувся після попереднього анонсу на Google I/O у травні 2025 року. Модель вже доступна через популярні фреймворки, зокрема Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama та MLX. Такий комплексний запуск дає розробникам змогу створювати нове покоління інтелектуальних застосунків, що працюють безпосередньо на пристроях і здатні розуміти та реагувати на навколишній світ.