Google heeft officieel Gemma 3n gelanceerd, het nieuwste open multimodale AI-model dat speciaal is ontwikkeld voor mobiele en edge-apparaten. Deze introductie markeert een belangrijke mijlpaal in het direct beschikbaar maken van geavanceerde AI-mogelijkheden op consumentenhardware, zonder dat cloudverwerking nodig is.
Gemma 3n is beschikbaar in twee varianten op basis van effectieve parameters: E2B en E4B. Hoewel het aantal ruwe parameters respectievelijk 5 miljard en 8 miljard bedraagt, zorgen architecturale innovaties ervoor dat ze kunnen draaien met een geheugengebruik vergelijkbaar met traditionele 2B- en 4B-modellen, met slechts 2GB (E2B) en 3GB (E4B) geheugen. Deze efficiëntie wordt bereikt door verschillende technische innovaties, waaronder de MatFormer-architectuur en Per-Layer Embeddings.
Het model is van nature multimodaal en ondersteunt standaard beeld-, audio-, video- en tekstinvoer, terwijl het tekstuele output genereert. De uitgebreide audiomogelijkheden maken hoogwaardige automatische spraakherkenning (transcriptie) en vertaling van spraak naar tekst mogelijk. Daarnaast accepteert het model afwisselende invoer uit verschillende modaliteiten, waardoor het complexe multimodale interacties kan begrijpen.
Voor visuele verwerking beschikt Gemma 3n over een uiterst efficiënte vision encoder, MobileNet-V5-300M, die toonaangevende prestaties levert voor multimodale taken op edge-apparaten. Deze encoder ondersteunt standaard meerdere invoerresoluties (256x256, 512x512 en 768x768 pixels), blinkt uit in uiteenlopende beeld- en videoanalyse-taken en kan tot 60 frames per seconde verwerken op een Google Pixel.
De E4B-versie behaalt een LMArena-score van meer dan 1300, waarmee het het eerste model onder de 10 miljard parameters is dat deze mijlpaal bereikt. Gemma 3n levert kwaliteitsverbeteringen op het gebied van meertaligheid, met ondersteuning voor 140 talen voor tekst en multimodale verwerking in 35 talen, evenals verbeterde wiskunde-, codeer- en redeneercapaciteiten.
Privacy is een belangrijk kenmerk, aangezien lokale uitvoering functies mogelijk maakt die de privacy van gebruikers respecteren en betrouwbaar werken zonder internetverbinding. Het model is ontwikkeld in nauwe samenwerking met toonaangevende hardwarepartners als Qualcomm Technologies, MediaTek en Samsung's System LSI-divisie, en is geoptimaliseerd voor razendsnelle, multimodale AI, waardoor echt persoonlijke en private ervaringen direct op het apparaat mogelijk zijn.
De volledige release volgt op een preview tijdens Google I/O in mei 2025. Het model is nu beschikbaar via populaire frameworks zoals Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama en MLX. Deze brede lancering stelt ontwikkelaars in staat een nieuwe generatie intelligente, on-device applicaties te bouwen die de wereld om hen heen kunnen begrijpen en erop kunnen reageren.