Google ha ufficialmente lanciato Gemma 3n, il suo più recente modello di intelligenza artificiale multimodale open source, progettato specificamente per dispositivi mobili ed edge. Questo rilascio segna una tappa fondamentale nel portare capacità avanzate di IA direttamente sull’hardware consumer, senza la necessità di elaborazione in cloud.
Gemma 3n è disponibile in due dimensioni, basate su parametri effettivi: E2B ed E4B. Sebbene il numero di parametri grezzi sia rispettivamente di 5 miliardi e 8 miliardi, innovazioni architetturali permettono loro di funzionare con un consumo di memoria paragonabile a modelli tradizionali da 2 e 4 miliardi di parametri, operando con soli 2GB (E2B) e 3GB (E4B) di memoria. Questa efficienza è ottenuta grazie a diverse innovazioni tecniche, tra cui l’architettura MatFormer e le Per-Layer Embeddings.
Il modello è realmente multimodale per progettazione, supportando nativamente input di immagini, audio, video e testo, generando output testuali. Le sue capacità audio avanzate permettono il riconoscimento vocale automatico (trascrizione) e la traduzione da voce a testo di alta qualità. Inoltre, il modello accetta input intercalati tra le varie modalità, consentendo la comprensione di interazioni multimodali complesse.
Per l’elaborazione visiva, Gemma 3n integra un encoder visivo altamente efficiente, MobileNet-V5-300M, che offre prestazioni all’avanguardia per compiti multimodali su dispositivi edge. Questo encoder supporta nativamente diverse risoluzioni di input (256x256, 512x512 e 768x768 pixel), eccelle in una vasta gamma di attività di comprensione di immagini e video, e può processare fino a 60 frame al secondo su un Google Pixel.
La versione E4B raggiunge un punteggio LMArena superiore a 1300, diventando il primo modello sotto i 10 miliardi di parametri a raggiungere questo traguardo. Gemma 3n offre miglioramenti nella qualità su più lingue, supportando 140 lingue per il testo e la comprensione multimodale in 35 lingue, oltre a capacità avanzate in matematica, programmazione e ragionamento.
La privacy è una caratteristica chiave: l’esecuzione locale consente funzionalità che rispettano la privacy dell’utente e funzionano in modo affidabile anche senza connessione internet. Il modello è stato sviluppato in stretta collaborazione con leader dell’hardware mobile come Qualcomm Technologies, MediaTek e la divisione System LSI di Samsung, ed è ottimizzato per un’IA multimodale rapidissima, offrendo esperienze realmente personali e private direttamente sui dispositivi.
Il rilascio completo segue un’anteprima presentata al Google I/O nel maggio 2025, e il modello è ora disponibile tramite framework popolari come Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama e MLX. Questo lancio completo consente agli sviluppatori di creare una nuova generazione di applicazioni intelligenti on-device, in grado di comprendere e rispondere al mondo circostante.