menu
close

Google представи Gemma 3n: Мощен мултимодален ИИ за мобилни устройства

Google пусна Gemma 3n – революционен мултимодален ИИ модел, проектиран да работи ефективно на потребителски устройства с едва 2GB памет. Моделът може да обработва аудио, текст, изображения и видео, като функционира локално на телефони, таблети и лаптопи. Тази ориентирана към мобилни устройства архитектура, разработена в сътрудничество с хардуерни производители като Qualcomm, MediaTek и Samsung, представлява значителен напредък в достъпността на мощен ИИ без необходимост от облачна връзка.
Google представи Gemma 3n: Мощен мултимодален ИИ за мобилни устройства

Google официално представи Gemma 3n – най-новия си отворен мултимодален ИИ модел, създаден специално за мобилни и edge устройства. Това издание бележи важен етап в предоставянето на напреднали ИИ възможности директно на потребителския хардуер, без нужда от обработка в облака.

Gemma 3n се предлага в два размера според ефективните параметри: E2B и E4B. Докато реалният брой параметри е съответно 5 милиарда и 8 милиарда, архитектурните иновации позволяват на моделите да работят с памет, сравнима с традиционните 2B и 4B модели, като функционират с едва 2GB (E2B) и 3GB (E4B) памет. Тази ефективност се постига чрез редица технически иновации, включително архитектурата MatFormer и Per-Layer Embeddings.

Моделът е истински мултимодален по дизайн, като поддържа нативно входове от изображения, аудио, видео и текст, а генерира текстови изходи. Разширените аудио възможности позволяват висококачествено автоматично разпознаване на реч (транскрипция) и превод от говор към текст. Освен това моделът приема смесени входове от различни модалности, което позволява разбиране на сложни мултимодални взаимодействия.

За визуална обработка Gemma 3n разполага с изключително ефективен vision encoder – MobileNet-V5-300M, който осигурява най-съвременно представяне при мултимодални задачи на edge устройства. Този енкодер поддържа нативно множество входни резолюции (256x256, 512x512 и 768x768 пиксела), отличава се при широк спектър от задачи за разбиране на изображения и видео и може да обработва до 60 кадъра в секунда на Google Pixel.

Версията E4B постига LMArena резултат над 1300, което я прави първия модел под 10 милиарда параметри, достигнал този показател. Gemma 3n предлага подобрения в качеството при многоезичност, поддържайки 140 езика за текст и мултимодално разбиране на 35 езика, както и усъвършенствани математически, кодиращи и логически способности.

Поверителността е ключова характеристика, тъй като локалното изпълнение позволява функции, които зачитат личните данни на потребителя и работят надеждно дори без интернет връзка. Моделът е създаден в тясно сътрудничество с водещи компании в мобилния хардуер като Qualcomm Technologies, MediaTek и Samsung System LSI, и е оптимизиран за светкавично бърз мултимодален ИИ, осигурявайки наистина персонални и защитени преживявания директно на устройствата.

Пълното издание следва предварителния преглед на Google I/O през май 2025 г., като моделът вече е достъпен чрез популярни рамки като Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama и MLX. Това цялостно пускане дава възможност на разработчиците да създават ново поколение интелигентни приложения на устройства, които могат да разбират и реагират на заобикалящия ги свят.

Source:

Latest News