Google har officiellt lanserat Gemma 3n, sin senaste öppna multimodala AI-modell som är särskilt utvecklad för mobila och edge-enheter. Denna lansering markerar en viktig milstolpe i att föra avancerade AI-funktioner direkt till konsumenthårdvara utan krav på molnbaserad bearbetning.
Gemma 3n finns i två storlekar baserat på effektiva parametrar: E2B och E4B. Även om deras faktiska parameterantal är 5B respektive 8B, möjliggör arkitektoniska innovationer att de kan köras med minnesanvändning jämförbar med traditionella 2B- och 4B-modeller, och fungerar med så lite som 2 GB (E2B) och 3 GB (E4B) minne. Denna effektivitet uppnås genom flera tekniska innovationer, inklusive MatFormer-arkitekturen och Per-Layer Embeddings.
Modellen är genuint multimodal i sin design och har inbyggt stöd för bild, ljud, video och text som indata, samtidigt som den genererar text som utdata. Dess utökade ljudfunktioner möjliggör högkvalitativ automatisk taligenkänning (transkribering) och översättning från tal till text. Dessutom accepterar modellen blandade indata över olika modaliteter, vilket möjliggör förståelse av komplexa multimodala interaktioner.
För visuell bearbetning har Gemma 3n en mycket effektiv visionskodare, MobileNet-V5-300M, som levererar topprestanda för multimodala uppgifter på edge-enheter. Denna kodare har inbyggt stöd för flera inmatningsupplösningar (256x256, 512x512 och 768x768 pixlar), utmärker sig inom en rad bild- och videoförståelseuppgifter och kan bearbeta upp till 60 bilder per sekund på en Google Pixel.
E4B-versionen når ett LMArena-resultat över 1300, vilket gör den till den första modellen under 10 miljarder parametrar som når denna milstolpe. Gemma 3n levererar kvalitetsförbättringar inom flerspråkighet, med stöd för 140 språk för text och multimodal förståelse av 35 språk, samt förbättrade funktioner för matematik, programmering och resonemang.
Integritet är en nyckelfunktion, eftersom lokal körning möjliggör funktioner som respekterar användarens integritet och fungerar tillförlitligt även utan internetanslutning. Modellen har skapats i nära samarbete med ledande aktörer inom mobil hårdvara såsom Qualcomm Technologies, MediaTek och Samsungs System LSI-verksamhet, och är optimerad för blixtsnabb, multimodal AI, vilket möjliggör verkligt personliga och privata upplevelser direkt på enheterna.
Den fullständiga lanseringen följer på en förhandsvisning under Google I/O i maj 2025, och modellen är nu tillgänglig via populära ramverk som Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama och MLX. Denna omfattande lansering ger utvecklare möjlighet att bygga en ny generation intelligenta, enhetsbaserade applikationer som kan förstå och reagera på omvärlden.