Google официално представи Gemma 3n – най-новия си отворен мултимодален ИИ модел, създаден специално за мобилни и edge устройства. Това издание бележи важен етап в предоставянето на напреднали ИИ възможности директно на потребителския хардуер, без нужда от обработка в облака.
Gemma 3n се предлага в два размера според ефективните параметри: E2B и E4B. Докато реалният брой параметри е съответно 5 милиарда и 8 милиарда, архитектурните иновации позволяват на моделите да работят с памет, сравнима с традиционните 2B и 4B модели, като функционират с едва 2GB (E2B) и 3GB (E4B) памет. Тази ефективност се постига чрез редица технически иновации, включително архитектурата MatFormer и Per-Layer Embeddings.
Моделът е истински мултимодален по дизайн, като поддържа нативно входове от изображения, аудио, видео и текст, а генерира текстови изходи. Разширените аудио възможности позволяват висококачествено автоматично разпознаване на реч (транскрипция) и превод от говор към текст. Освен това моделът приема смесени входове от различни модалности, което позволява разбиране на сложни мултимодални взаимодействия.
За визуална обработка Gemma 3n разполага с изключително ефективен vision encoder – MobileNet-V5-300M, който осигурява най-съвременно представяне при мултимодални задачи на edge устройства. Този енкодер поддържа нативно множество входни резолюции (256x256, 512x512 и 768x768 пиксела), отличава се при широк спектър от задачи за разбиране на изображения и видео и може да обработва до 60 кадъра в секунда на Google Pixel.
Версията E4B постига LMArena резултат над 1300, което я прави първия модел под 10 милиарда параметри, достигнал този показател. Gemma 3n предлага подобрения в качеството при многоезичност, поддържайки 140 езика за текст и мултимодално разбиране на 35 езика, както и усъвършенствани математически, кодиращи и логически способности.
Поверителността е ключова характеристика, тъй като локалното изпълнение позволява функции, които зачитат личните данни на потребителя и работят надеждно дори без интернет връзка. Моделът е създаден в тясно сътрудничество с водещи компании в мобилния хардуер като Qualcomm Technologies, MediaTek и Samsung System LSI, и е оптимизиран за светкавично бърз мултимодален ИИ, осигурявайки наистина персонални и защитени преживявания директно на устройствата.
Пълното издание следва предварителния преглед на Google I/O през май 2025 г., като моделът вече е достъпен чрез популярни рамки като Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama и MLX. Това цялостно пускане дава възможност на разработчиците да създават ново поколение интелигентни приложения на устройства, които могат да разбират и реагират на заобикалящия ги свят.