Google presenta Gemma 3n: Potente IA multimodale per dispositivi mobili

Google ha rilasciato Gemma 3n, un rivoluzionario modello di intelligenza artificiale multimodale progettato per funzionare in modo efficiente su dispositivi consumer con soli 2GB di memoria. Il modello è in grado di elaborare input audio, testuali, immagini e video, operando localmente su smartphone, tablet e laptop. Questa architettura mobile-first, sviluppata in collaborazione con produttori hardware come Qualcomm, MediaTek e Samsung, rappresenta un importante passo avanti nel rendere l’IA potente accessibile senza necessità di connessione cloud.

Google ha ufficialmente lanciato Gemma 3n, il suo più recente modello di intelligenza artificiale multimodale open source, progettato specificamente per dispositivi mobili ed edge. Questo rilascio segna una tappa fondamentale nel portare capacità avanzate di IA direttamente sull’hardware consumer, senza la necessità di elaborazione in cloud.

Gemma 3n è disponibile in due dimensioni, basate su parametri effettivi: E2B ed E4B. Sebbene il numero di parametri grezzi sia rispettivamente di 5 miliardi e 8 miliardi, innovazioni architetturali permettono loro di funzionare con un consumo di memoria paragonabile a modelli tradizionali da 2 e 4 miliardi di parametri, operando con soli 2GB (E2B) e 3GB (E4B) di memoria. Questa efficienza è ottenuta grazie a diverse innovazioni tecniche, tra cui l’architettura MatFormer e le Per-Layer Embeddings.

Il modello è realmente multimodale per progettazione, supportando nativamente input di immagini, audio, video e testo, generando output testuali. Le sue capacità audio avanzate permettono il riconoscimento vocale automatico (trascrizione) e la traduzione da voce a testo di alta qualità. Inoltre, il modello accetta input intercalati tra le varie modalità, consentendo la comprensione di interazioni multimodali complesse.

Per l’elaborazione visiva, Gemma 3n integra un encoder visivo altamente efficiente, MobileNet-V5-300M, che offre prestazioni all’avanguardia per compiti multimodali su dispositivi edge. Questo encoder supporta nativamente diverse risoluzioni di input (256x256, 512x512 e 768x768 pixel), eccelle in una vasta gamma di attività di comprensione di immagini e video, e può processare fino a 60 frame al secondo su un Google Pixel.

La versione E4B raggiunge un punteggio LMArena superiore a 1300, diventando il primo modello sotto i 10 miliardi di parametri a raggiungere questo traguardo. Gemma 3n offre miglioramenti nella qualità su più lingue, supportando 140 lingue per il testo e la comprensione multimodale in 35 lingue, oltre a capacità avanzate in matematica, programmazione e ragionamento.

La privacy è una caratteristica chiave: l’esecuzione locale consente funzionalità che rispettano la privacy dell’utente e funzionano in modo affidabile anche senza connessione internet. Il modello è stato sviluppato in stretta collaborazione con leader dell’hardware mobile come Qualcomm Technologies, MediaTek e la divisione System LSI di Samsung, ed è ottimizzato per un’IA multimodale rapidissima, offrendo esperienze realmente personali e private direttamente sui dispositivi.

Il rilascio completo segue un’anteprima presentata al Google I/O nel maggio 2025, e il modello è ora disponibile tramite framework popolari come Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama e MLX. Questo lancio completo consente agli sviluppatori di creare una nuova generazione di applicazioni intelligenti on-device, in grado di comprendere e rispondere al mondo circostante.

Source:

Google presenta Gemma 3n: Potente IA multimodale per dispositivi mobili

Latest News

OpenTools.AI lancia il Daily AI Digest per i professionisti del settore

I droni AI di Helsing trasformano la strategia difensiva dell'Ucraina

Ex CTO di OpenAI Ottiene un Finanziamento Record di 2 Miliardi di Dollari per Startup di IA

EraDrive di Stanford ottiene un contratto NASA da 1 milione di dollari per tecnologia AI spaziale

I giganti di Hollywood sfidano un'azienda di IA in una causa storica sul copyright

La Rivoluzione dell’IA Trasforma il Panorama delle Gare Federali

Nvidia consolida la leadership nell’IA con una crescita da record

Interfaccia Cerebrale Alimentata dall’IA Trasforma i Pensieri in Parole

La Cina accelera sull’IA e riduce il divario con gli Stati Uniti, secondo uno studio RAND

Chip quantistici fotonici potenziano le prestazioni dell’IA riducendo drasticamente i consumi energetici

Google presenta Gemma 3n: Potente IA multimodale per dispositivi mobili

Related Articles

OpenTools.AI lancia il Daily AI Digest per i professionisti del settore

La Cina accelera sull’IA e riduce il divario con gli Stati Uniti, secondo uno studio RAND

Meta lancia una spinta da 65 miliardi di dollari sull’IA con un nuovo laboratorio di superintelligenza

TomTom Taglia Posti di Lavoro mentre l’IA Ridisegna il Futuro del Colosso della Navigazione

Anthropic affronta l'impatto economico dell'IA con una nuova iniziativa di ricerca

Latest News

OpenTools.AI lancia il Daily AI Digest per i professionisti del settore

I droni AI di Helsing trasformano la strategia difensiva dell'Ucraina

Ex CTO di OpenAI Ottiene un Finanziamento Record di 2 Miliardi di Dollari per Startup di IA

EraDrive di Stanford ottiene un contratto NASA da 1 milione di dollari per tecnologia AI spaziale

I giganti di Hollywood sfidano un'azienda di IA in una causa storica sul copyright

La Rivoluzione dell’IA Trasforma il Panorama delle Gare Federali

Nvidia consolida la leadership nell’IA con una crescita da record

Interfaccia Cerebrale Alimentata dall’IA Trasforma i Pensieri in Parole

La Cina accelera sull’IA e riduce il divario con gli Stati Uniti, secondo uno studio RAND

Chip quantistici fotonici potenziano le prestazioni dell’IA riducendo drasticamente i consumi energetici