menu
close

Google predstavlja Gemma 3n: Snažna multimodalna AI za mobilne uređaje

Google je predstavio Gemma 3n, revolucionarni multimodalni AI model dizajniran za učinkovito izvođenje na potrošačkim uređajima s najmanje 2 GB memorije. Model može obrađivati audio, tekst, slike i video ulaze, a pritom radi lokalno na telefonima, tabletima i prijenosnim računalima. Ova arhitektura s naglaskom na mobilne uređaje, razvijena u suradnji s proizvođačima hardvera poput Qualcomma, MediaTeka i Samsunga, predstavlja značajan iskorak u omogućavanju pristupa moćnoj umjetnoj inteligenciji bez potrebe za povezivanjem na oblak.
Google predstavlja Gemma 3n: Snažna multimodalna AI za mobilne uređaje

Google je službeno lansirao Gemma 3n, svoj najnoviji otvoreni multimodalni AI model posebno osmišljen za mobilne i edge uređaje. Ovo izdanje označava važnu prekretnicu u dovođenju naprednih AI mogućnosti izravno na potrošački hardver, bez potrebe za obradom u oblaku.

Gemma 3n dolazi u dvije veličine prema efektivnim parametrima: E2B i E4B. Iako je stvaran broj parametara 5 milijardi (E2B) i 8 milijardi (E4B), arhitektonske inovacije omogućuju im rad s memorijskim zahtjevima usporedivim s tradicionalnim modelima od 2 i 4 milijarde parametara, pri čemu je potrebno samo 2 GB (E2B) odnosno 3 GB (E4B) memorije. Ova učinkovitost postignuta je zahvaljujući brojnim tehničkim inovacijama, uključujući MatFormer arhitekturu i Per-Layer Embeddings.

Model je po dizajnu uistinu multimodalan, s izvornom podrškom za slike, zvuk, video i tekstualne ulaze, dok generira tekstualne izlaze. Proširene audio mogućnosti omogućuju visokokvalitetno automatsko prepoznavanje govora (transkripciju) i prevođenje govora u tekst. Osim toga, model prihvaća izmiješane ulaze iz različitih modaliteta, omogućujući razumijevanje složenih multimodalnih interakcija.

Za vizualnu obradu, Gemma 3n koristi izuzetno učinkovit vizualni enkoder MobileNet-V5-300M, koji pruža vrhunske performanse za multimodalne zadatke na edge uređajima. Ovaj enkoder nativno podržava više rezolucija ulaznih slika (256x256, 512x512 i 768x768 piksela), izvrsno se snalazi u širokom spektru zadataka razumijevanja slika i videa, te može obraditi do 60 sličica u sekundi na Google Pixelu.

E4B verzija postiže LMArena rezultat iznad 1300, čime postaje prvi model ispod 10 milijardi parametara koji je dosegao ovu granicu. Gemma 3n donosi poboljšanja u kvaliteti na području višejezičnosti, podržavajući 140 jezika za tekst i multimodalno razumijevanje na 35 jezika, kao i naprednije mogućnosti u matematici, programiranju i zaključivanju.

Privatnost je ključna značajka, jer lokalno izvođenje omogućuje funkcije koje poštuju privatnost korisnika i pouzdano rade čak i bez internetske veze. Model je razvijen u bliskoj suradnji s vodećim proizvođačima mobilnog hardvera kao što su Qualcomm Technologies, MediaTek i Samsungov System LSI odjel, te je optimiziran za izuzetno brzu, multimodalnu umjetnu inteligenciju, omogućujući doista osobna i privatna iskustva izravno na uređajima.

Potpuno izdanje uslijedilo je nakon najave na Google I/O konferenciji u svibnju 2025., a model je sada dostupan putem popularnih okvira kao što su Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama i MLX. Ovo sveobuhvatno lansiranje omogućuje programerima razvoj nove generacije inteligentnih aplikacija na uređajima, koje mogu razumjeti i odgovarati na svijet oko sebe.

Source:

Latest News