Google презентує Gemma 3n: потужний мультимодальний ШІ для мобільних пристроїв

Google випустила Gemma 3n — революційну мультимодальну модель штучного інтелекту, розроблену для ефективної роботи на споживчих пристроях із мінімумом 2 ГБ оперативної пам’яті. Модель здатна обробляти аудіо, текст, зображення та відео, працюючи локально на телефонах, планшетах і ноутбуках. Ця архітектура з орієнтацією на мобільність, створена у співпраці з виробниками апаратного забезпечення, такими як Qualcomm, MediaTek і Samsung, є значним кроком до доступності потужного ШІ без підключення до хмари.

Google офіційно представила Gemma 3n — свою новітню відкриту мультимодальну модель штучного інтелекту, спеціально розроблену для мобільних і периферійних пристроїв. Цей реліз є важливою віхою на шляху до впровадження передових можливостей ШІ безпосередньо у споживчу електроніку без необхідності обробки в хмарі.

Gemma 3n випускається у двох розмірах за ефективними параметрами: E2B та E4B. Хоча фактична кількість параметрів становить відповідно 5B і 8B, архітектурні інновації дозволяють моделі працювати з обсягом пам’яті, порівнянним із традиційними моделями на 2B і 4B параметрів — тобто, для роботи E2B потрібно лише 2 ГБ, а для E4B — 3 ГБ оперативної пам’яті. Така ефективність досягається завдяки низці технічних нововведень, зокрема архітектурі MatFormer та Per-Layer Embeddings.

Модель є по-справжньому мультимодальною за задумом: вона нативно підтримує введення зображень, аудіо, відео та тексту, а також генерує текстові відповіді. Розширені аудіоможливості забезпечують якісне автоматичне розпізнавання мовлення (транскрипцію) та переклад із мовлення у текст. Крім того, модель приймає змішані введення різних типів, що дозволяє їй розуміти складні мультимодальні взаємодії.

Для обробки зображень у Gemma 3n використовується високоефективний візуальний енкодер MobileNet-V5-300M, який забезпечує найкращі результати для мультимодальних завдань на периферійних пристроях. Енкодер нативно підтримує кілька роздільних здатностей (256x256, 512x512 та 768x768 пікселів), відмінно справляється із широким спектром завдань з розуміння зображень і відео та може обробляти до 60 кадрів на секунду на Google Pixel.

Версія E4B досягає оцінки LMArena понад 1300, що робить її першою моделлю з менш ніж 10 мільярдами параметрів, яка досягла такого результату. Gemma 3n демонструє покращення якості у багатомовності: підтримує 140 мов для тексту й мультимодальне розуміння 35 мов, а також має розширені можливості у математиці, програмуванні та логічному мисленні.

Конфіденційність є ключовою особливістю: локальне виконання дозволяє реалізувати функції, що поважають приватність користувача і працюють надійно навіть без підключення до інтернету. Модель створювалася у тісній співпраці з лідерами мобільного апаратного забезпечення — Qualcomm Technologies, MediaTek і підрозділом System LSI компанії Samsung, та оптимізована для надшвидкої мультимодальної роботи ШІ, забезпечуючи справді персональний і приватний досвід безпосередньо на пристроях.

Повноцінний реліз відбувся після попереднього анонсу на Google I/O у травні 2025 року. Модель вже доступна через популярні фреймворки, зокрема Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama та MLX. Такий комплексний запуск дає розробникам змогу створювати нове покоління інтелектуальних застосунків, що працюють безпосередньо на пристроях і здатні розуміти та реагувати на навколишній світ.

Source:

Google презентує Gemma 3n: потужний мультимодальний ШІ для мобільних пристроїв

Latest News

OpenTools.AI запускає щоденний AI Digest для професіоналів галузі

Дрони з ШІ від Helsing змінюють оборонну стратегію України

Екс-CTO OpenAI залучила рекордні $2 млрд для AI-стартапу

EraDrive зі Стенфорда отримала контракт NASA на $1 млн для розробки космічних AI-технологій

Голлівудські гіганти судяться з AI-компанією у знаковій справі про авторське право

Революція штучного інтелекту змінює ландшафт державних тендерів

Nvidia зміцнює лідерство в галузі ШІ завдяки рекордним темпам зростання

Інтерфейс мозок-комп’ютер на основі ШІ перетворює думки на слова

Китай скорочує відставання від США у сфері ШІ — дослідження RAND

Фотонні квантові чипи підвищують ефективність ШІ та зменшують енергоспоживання

Google презентує Gemma 3n: потужний мультимодальний ШІ для мобільних пристроїв

Related Articles

OpenTools.AI запускає щоденний AI Digest для професіоналів галузі

Китай скорочує відставання від США у сфері ШІ — дослідження RAND

Meta запускає AI-ініціативу на $65 млрд із новою лабораторією суперінтелекту

TomTom скорочує штат на тлі трансформації майбутнього компанії під впливом ШІ

Anthropic досліджує економічний вплив ШІ за допомогою нової наукової ініціативи

Latest News

OpenTools.AI запускає щоденний AI Digest для професіоналів галузі

Дрони з ШІ від Helsing змінюють оборонну стратегію України

Екс-CTO OpenAI залучила рекордні $2 млрд для AI-стартапу

EraDrive зі Стенфорда отримала контракт NASA на $1 млн для розробки космічних AI-технологій

Голлівудські гіганти судяться з AI-компанією у знаковій справі про авторське право

Революція штучного інтелекту змінює ландшафт державних тендерів

Nvidia зміцнює лідерство в галузі ШІ завдяки рекордним темпам зростання

Інтерфейс мозок-комп’ютер на основі ШІ перетворює думки на слова

Китай скорочує відставання від США у сфері ШІ — дослідження RAND

Фотонні квантові чипи підвищують ефективність ШІ та зменшують енергоспоживання