Google lanserar Gemma 3n: Kraftfull multimodal AI för mobila enheter

Google har släppt Gemma 3n, en banbrytande multimodal AI-modell som är utformad för att köras effektivt på konsumentenheter med så lite som 2 GB minne. Modellen kan bearbeta ljud, text, bilder och video lokalt på telefoner, surfplattor och bärbara datorer. Denna mobilfokuserade arkitektur, utvecklad i samarbete med hårdvarutillverkare som Qualcomm, MediaTek och Samsung, innebär ett stort steg framåt för att göra kraftfull AI tillgänglig utan molnanslutning.

Google har officiellt lanserat Gemma 3n, sin senaste öppna multimodala AI-modell som är särskilt utvecklad för mobila och edge-enheter. Denna lansering markerar en viktig milstolpe i att föra avancerade AI-funktioner direkt till konsumenthårdvara utan krav på molnbaserad bearbetning.

Gemma 3n finns i två storlekar baserat på effektiva parametrar: E2B och E4B. Även om deras faktiska parameterantal är 5B respektive 8B, möjliggör arkitektoniska innovationer att de kan köras med minnesanvändning jämförbar med traditionella 2B- och 4B-modeller, och fungerar med så lite som 2 GB (E2B) och 3 GB (E4B) minne. Denna effektivitet uppnås genom flera tekniska innovationer, inklusive MatFormer-arkitekturen och Per-Layer Embeddings.

Modellen är genuint multimodal i sin design och har inbyggt stöd för bild, ljud, video och text som indata, samtidigt som den genererar text som utdata. Dess utökade ljudfunktioner möjliggör högkvalitativ automatisk taligenkänning (transkribering) och översättning från tal till text. Dessutom accepterar modellen blandade indata över olika modaliteter, vilket möjliggör förståelse av komplexa multimodala interaktioner.

För visuell bearbetning har Gemma 3n en mycket effektiv visionskodare, MobileNet-V5-300M, som levererar topprestanda för multimodala uppgifter på edge-enheter. Denna kodare har inbyggt stöd för flera inmatningsupplösningar (256x256, 512x512 och 768x768 pixlar), utmärker sig inom en rad bild- och videoförståelseuppgifter och kan bearbeta upp till 60 bilder per sekund på en Google Pixel.

E4B-versionen når ett LMArena-resultat över 1300, vilket gör den till den första modellen under 10 miljarder parametrar som når denna milstolpe. Gemma 3n levererar kvalitetsförbättringar inom flerspråkighet, med stöd för 140 språk för text och multimodal förståelse av 35 språk, samt förbättrade funktioner för matematik, programmering och resonemang.

Integritet är en nyckelfunktion, eftersom lokal körning möjliggör funktioner som respekterar användarens integritet och fungerar tillförlitligt även utan internetanslutning. Modellen har skapats i nära samarbete med ledande aktörer inom mobil hårdvara såsom Qualcomm Technologies, MediaTek och Samsungs System LSI-verksamhet, och är optimerad för blixtsnabb, multimodal AI, vilket möjliggör verkligt personliga och privata upplevelser direkt på enheterna.

Den fullständiga lanseringen följer på en förhandsvisning under Google I/O i maj 2025, och modellen är nu tillgänglig via populära ramverk som Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama och MLX. Denna omfattande lansering ger utvecklare möjlighet att bygga en ny generation intelligenta, enhetsbaserade applikationer som kan förstå och reagera på omvärlden.

Source:

Google lanserar Gemma 3n: Kraftfull multimodal AI för mobila enheter

Latest News

OpenTools.AI lanserar daglig AI-översikt för yrkesverksamma

Helsings AI-drönare förändrar Ukrainas försvarsstrategi

Före detta OpenAI-CTO säkrar rekordstora 2 miljarder dollar till AI-startup

Stanford-avknoppningen EraDrive säkrar NASA-avtal på 1 miljon dollar för AI-teknik i rymden

Hollywoodjättar i rättslig strid mot AI-bolag i banbrytande upphovsrättsfall

AI-revolutionen förändrar landskapet för statliga upphandlingsanbud

Nvidia befäster AI-ledarskap med rekordartad tillväxtbana

AI-driven hjärngränssnitt omvandlar tankar till ord

Kinas AI-satsning minskar avståndet till USA, visar RAND-studie

Fotoniska kvantchip ökar AI-prestanda och minskar energiförbrukningen

Google lanserar Gemma 3n: Kraftfull multimodal AI för mobila enheter

Related Articles

OpenTools.AI lanserar daglig AI-översikt för yrkesverksamma

Kinas AI-satsning minskar avståndet till USA, visar RAND-studie

Meta satsar 65 miljarder dollar på AI – lanserar nytt superintelligenslabb

TomTom skär ned på personal när AI omformar navigationsjättens framtid

Anthropic tar itu med AI:s ekonomiska påverkan genom nytt forskningsinitiativ

Latest News

OpenTools.AI lanserar daglig AI-översikt för yrkesverksamma

Helsings AI-drönare förändrar Ukrainas försvarsstrategi

Före detta OpenAI-CTO säkrar rekordstora 2 miljarder dollar till AI-startup

Stanford-avknoppningen EraDrive säkrar NASA-avtal på 1 miljon dollar för AI-teknik i rymden

Hollywoodjättar i rättslig strid mot AI-bolag i banbrytande upphovsrättsfall

AI-revolutionen förändrar landskapet för statliga upphandlingsanbud

Nvidia befäster AI-ledarskap med rekordartad tillväxtbana

AI-driven hjärngränssnitt omvandlar tankar till ord

Kinas AI-satsning minskar avståndet till USA, visar RAND-studie

Fotoniska kvantchip ökar AI-prestanda och minskar energiförbrukningen