Google a lansat oficial Gemma 3n, cel mai nou model deschis de inteligență artificială multimodală, proiectat special pentru dispozitive mobile și edge. Această lansare marchează un moment important în aducerea capabilităților AI avansate direct pe hardware-ul utilizatorilor, fără a necesita procesare în cloud.
Gemma 3n este disponibil în două variante, în funcție de parametrii efectivi: E2B și E4B. Deși numărul brut de parametri este de 5 miliarde (5B) și 8 miliarde (8B), inovațiile arhitecturale permit rularea cu un consum de memorie comparabil cu modelele tradiționale de 2B și 4B, funcționând cu doar 2GB (E2B) și 3GB (E4B) de memorie. Această eficiență este obținută prin mai multe inovații tehnice, inclusiv arhitectura MatFormer și Per-Layer Embeddings.
Modelul este cu adevărat multimodal prin design, suportând nativ intrări de tip imagine, audio, video și text, generând ieșiri textuale. Capacitățile audio extinse permit recunoaștere automată a vorbirii (transcriere) și traducere de la vorbire la text la o calitate ridicată. În plus, modelul acceptă intrări intercalate între modalități, facilitând înțelegerea interacțiunilor multimodale complexe.
Pentru procesarea vizuală, Gemma 3n dispune de un encoder vizual extrem de eficient, MobileNet-V5-300M, care oferă performanțe de top pentru sarcini multimodale pe dispozitive edge. Acest encoder suportă nativ multiple rezoluții de intrare (256x256, 512x512 și 768x768 pixeli), excelează la o gamă largă de sarcini de înțelegere a imaginilor și videoclipurilor și poate procesa până la 60 de cadre pe secundă pe un Google Pixel.
Versiunea E4B atinge un scor LMArena de peste 1300, fiind primul model sub 10 miliarde de parametri care ajunge la acest reper. Gemma 3n aduce îmbunătățiri semnificative la nivel de multilingvism, suportând 140 de limbi pentru text și înțelegere multimodală în 35 de limbi, precum și abilități avansate de matematică, programare și raționament.
Confidențialitatea este o caracteristică esențială, deoarece rularea locală permite funcționalități care respectă intimitatea utilizatorului și funcționează fiabil chiar și fără conexiune la internet. Modelul a fost creat în strânsă colaborare cu lideri din hardware-ul mobil precum Qualcomm Technologies, MediaTek și divizia System LSI a Samsung, fiind optimizat pentru AI multimodal ultra-rapid, ce permite experiențe cu adevărat personale și private direct pe dispozitive.
Lansarea completă vine după o previzualizare la Google I/O în mai 2025, modelul fiind acum disponibil prin framework-uri populare precum Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama și MLX. Această lansare cuprinzătoare oferă dezvoltatorilor posibilitatea de a crea o nouă generație de aplicații inteligente, on-device, capabile să înțeleagă și să răspundă lumii din jur.