menu
close

Google lancerer Gemma 3n: Kraftfuld multimodal AI til mobile enheder

Google har frigivet Gemma 3n, en banebrydende multimodal AI-model designet til at køre effektivt på forbrugerenheder med så lidt som 2 GB hukommelse. Modellen kan behandle lyd, tekst, billeder og video-inputs, mens den opererer lokalt på telefoner, tablets og bærbare computere. Denne mobile-første arkitektur, udviklet i samarbejde med hardwareproducenter som Qualcomm, MediaTek og Samsung, markerer et betydeligt fremskridt i at gøre kraftfuld AI tilgængelig uden behov for cloud-forbindelse.
Google lancerer Gemma 3n: Kraftfuld multimodal AI til mobile enheder

Google har officielt lanceret Gemma 3n, deres nyeste åbne multimodale AI-model, der er udviklet specifikt til mobile og edge-enheder. Lanceringen markerer en vigtig milepæl i at bringe avancerede AI-evner direkte til forbrugernes hardware uden behov for cloud-baseret behandling.

Gemma 3n findes i to størrelser baseret på effektive parametre: E2B og E4B. Selvom de rå parameterantal er henholdsvis 5B og 8B, muliggør arkitektoniske innovationer, at de kan køre med hukommelsesforbrug svarende til traditionelle 2B- og 4B-modeller, og fungerer med så lidt som 2 GB (E2B) og 3 GB (E4B) hukommelse. Denne effektivitet opnås gennem flere tekniske nyskabelser, herunder MatFormer-arkitekturen og Per-Layer Embeddings.

Modellen er ægte multimodal fra grunden, og understøtter naturligt billede-, lyd-, video- og tekstinput, mens den genererer tekstoutput. De udvidede lydfunktioner muliggør højkvalitets automatisk talegenkendelse (transskription) og oversættelse fra tale til tekst. Derudover accepterer modellen indskudte input på tværs af modaliteter, hvilket gør det muligt at forstå komplekse multimodale interaktioner.

Til visuel behandling har Gemma 3n en yderst effektiv vision-encoder, MobileNet-V5-300M, der leverer topmoderne ydeevne til multimodale opgaver på edge-enheder. Denne encoder understøtter naturligt flere inputopløsninger (256x256, 512x512 og 768x768 pixels), udmærker sig i en bred vifte af billed- og videoforståelsesopgaver, og kan behandle op til 60 billeder i sekundet på en Google Pixel.

E4B-versionen opnår en LMArena-score på over 1300, hvilket gør den til den første model under 10 milliarder parametre, der når denne milepæl. Gemma 3n leverer kvalitetsforbedringer på tværs af flersprogethed, understøtter 140 sprog for tekst og multimodal forståelse af 35 sprog, samt forbedrede evner inden for matematik, kodning og ræsonnement.

Privatliv er et centralt element, da lokal eksekvering muliggør funktioner, der respekterer brugerens privatliv og fungerer pålideligt selv uden internetforbindelse. Modellen er skabt i tæt samarbejde med førende hardwareproducenter som Qualcomm Technologies, MediaTek og Samsungs System LSI-division, og er optimeret til lynhurtig, multimodal AI, hvilket muliggør ægte personlige og private oplevelser direkte på enhederne.

Den fulde lancering følger en forhåndsvisning på Google I/O i maj 2025, og modellen er nu tilgængelig gennem populære frameworks som Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama og MLX. Denne omfattende lancering giver udviklere mulighed for at skabe en ny generation af intelligente, on-device applikationer, der kan forstå og reagere på verden omkring dem.

Source:

Latest News