Google lansează Gemma 3n: Inteligență artificială multimodală puternică pentru dispozitive mobile

Google a lansat Gemma 3n, un model revoluționar de inteligență artificială multimodală, conceput pentru a funcționa eficient pe dispozitive de consum cu doar 2GB de memorie. Modelul poate procesa audio, text, imagini și video, operând local pe telefoane, tablete și laptopuri. Această arhitectură orientată către mobil, dezvoltată în colaborare cu producători de hardware precum Qualcomm, MediaTek și Samsung, reprezintă un progres semnificativ în accesibilizarea AI-ului performant fără a depinde de conexiunea la cloud.

Google a lansat oficial Gemma 3n, cel mai nou model deschis de inteligență artificială multimodală, proiectat special pentru dispozitive mobile și edge. Această lansare marchează un moment important în aducerea capabilităților AI avansate direct pe hardware-ul utilizatorilor, fără a necesita procesare în cloud.

Gemma 3n este disponibil în două variante, în funcție de parametrii efectivi: E2B și E4B. Deși numărul brut de parametri este de 5 miliarde (5B) și 8 miliarde (8B), inovațiile arhitecturale permit rularea cu un consum de memorie comparabil cu modelele tradiționale de 2B și 4B, funcționând cu doar 2GB (E2B) și 3GB (E4B) de memorie. Această eficiență este obținută prin mai multe inovații tehnice, inclusiv arhitectura MatFormer și Per-Layer Embeddings.

Modelul este cu adevărat multimodal prin design, suportând nativ intrări de tip imagine, audio, video și text, generând ieșiri textuale. Capacitățile audio extinse permit recunoaștere automată a vorbirii (transcriere) și traducere de la vorbire la text la o calitate ridicată. În plus, modelul acceptă intrări intercalate între modalități, facilitând înțelegerea interacțiunilor multimodale complexe.

Pentru procesarea vizuală, Gemma 3n dispune de un encoder vizual extrem de eficient, MobileNet-V5-300M, care oferă performanțe de top pentru sarcini multimodale pe dispozitive edge. Acest encoder suportă nativ multiple rezoluții de intrare (256x256, 512x512 și 768x768 pixeli), excelează la o gamă largă de sarcini de înțelegere a imaginilor și videoclipurilor și poate procesa până la 60 de cadre pe secundă pe un Google Pixel.

Versiunea E4B atinge un scor LMArena de peste 1300, fiind primul model sub 10 miliarde de parametri care ajunge la acest reper. Gemma 3n aduce îmbunătățiri semnificative la nivel de multilingvism, suportând 140 de limbi pentru text și înțelegere multimodală în 35 de limbi, precum și abilități avansate de matematică, programare și raționament.

Confidențialitatea este o caracteristică esențială, deoarece rularea locală permite funcționalități care respectă intimitatea utilizatorului și funcționează fiabil chiar și fără conexiune la internet. Modelul a fost creat în strânsă colaborare cu lideri din hardware-ul mobil precum Qualcomm Technologies, MediaTek și divizia System LSI a Samsung, fiind optimizat pentru AI multimodal ultra-rapid, ce permite experiențe cu adevărat personale și private direct pe dispozitive.

Lansarea completă vine după o previzualizare la Google I/O în mai 2025, modelul fiind acum disponibil prin framework-uri populare precum Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama și MLX. Această lansare cuprinzătoare oferă dezvoltatorilor posibilitatea de a crea o nouă generație de aplicații inteligente, on-device, capabile să înțeleagă și să răspundă lumii din jur.

Source:

Google lansează Gemma 3n: Inteligență artificială multimodală puternică pentru dispozitive mobile

Latest News

OpenTools.AI lansează Daily AI Digest pentru profesioniștii din industrie

Dronele AI ale Helsing transformă strategia de apărare a Ucrainei

Fosta CTO OpenAI obține un record de 2 miliarde de dolari pentru startup-ul său de inteligență artificială

EraDrive de la Stanford obține un contract NASA de 1 milion de dolari pentru tehnologie AI spațială

Giganții de la Hollywood se confruntă cu o firmă de inteligență artificială într-un proces de referință privind drepturile de autor

Revoluția AI transformă peisajul licitațiilor pentru contracte federale

Nvidia Își Consolidează Supremația în AI printr-o Traiectorie de Creștere Record

Interfață cerebrală alimentată de inteligență artificială transformă gândurile în cuvinte

Avansul Chinei în domeniul inteligenței artificiale reduce diferența față de SUA, arată un studiu RAND

Cipuri cuantice fotonice îmbunătățesc performanța AI și reduc drastic consumul de energie

Google lansează Gemma 3n: Inteligență artificială multimodală puternică pentru dispozitive mobile

Related Articles

OpenTools.AI lansează Daily AI Digest pentru profesioniștii din industrie

Avansul Chinei în domeniul inteligenței artificiale reduce diferența față de SUA, arată un studiu RAND

Meta lansează o inițiativă AI de 65 de miliarde de dolari cu un nou laborator de superinteligență

TomTom Concedează Angajați pe Fondul Transformării prin Inteligență Artificială

Anthropic abordează impactul economic al inteligenței artificiale printr-o nouă inițiativă de cercetare

Latest News

OpenTools.AI lansează Daily AI Digest pentru profesioniștii din industrie

Dronele AI ale Helsing transformă strategia de apărare a Ucrainei

Fosta CTO OpenAI obține un record de 2 miliarde de dolari pentru startup-ul său de inteligență artificială

EraDrive de la Stanford obține un contract NASA de 1 milion de dolari pentru tehnologie AI spațială

Giganții de la Hollywood se confruntă cu o firmă de inteligență artificială într-un proces de referință privind drepturile de autor

Revoluția AI transformă peisajul licitațiilor pentru contracte federale

Nvidia Își Consolidează Supremația în AI printr-o Traiectorie de Creștere Record

Interfață cerebrală alimentată de inteligență artificială transformă gândurile în cuvinte

Avansul Chinei în domeniul inteligenței artificiale reduce diferența față de SUA, arată un studiu RAND

Cipuri cuantice fotonice îmbunătățesc performanța AI și reduc drastic consumul de energie