Google lancerer Gemma 3n: Kraftfuld multimodal AI til mobile enheder

Google har frigivet Gemma 3n, en banebrydende multimodal AI-model designet til at køre effektivt på forbrugerenheder med så lidt som 2 GB hukommelse. Modellen kan behandle lyd, tekst, billeder og video-inputs, mens den opererer lokalt på telefoner, tablets og bærbare computere. Denne mobile-første arkitektur, udviklet i samarbejde med hardwareproducenter som Qualcomm, MediaTek og Samsung, markerer et betydeligt fremskridt i at gøre kraftfuld AI tilgængelig uden behov for cloud-forbindelse.

Google har officielt lanceret Gemma 3n, deres nyeste åbne multimodale AI-model, der er udviklet specifikt til mobile og edge-enheder. Lanceringen markerer en vigtig milepæl i at bringe avancerede AI-evner direkte til forbrugernes hardware uden behov for cloud-baseret behandling.

Gemma 3n findes i to størrelser baseret på effektive parametre: E2B og E4B. Selvom de rå parameterantal er henholdsvis 5B og 8B, muliggør arkitektoniske innovationer, at de kan køre med hukommelsesforbrug svarende til traditionelle 2B- og 4B-modeller, og fungerer med så lidt som 2 GB (E2B) og 3 GB (E4B) hukommelse. Denne effektivitet opnås gennem flere tekniske nyskabelser, herunder MatFormer-arkitekturen og Per-Layer Embeddings.

Modellen er ægte multimodal fra grunden, og understøtter naturligt billede-, lyd-, video- og tekstinput, mens den genererer tekstoutput. De udvidede lydfunktioner muliggør højkvalitets automatisk talegenkendelse (transskription) og oversættelse fra tale til tekst. Derudover accepterer modellen indskudte input på tværs af modaliteter, hvilket gør det muligt at forstå komplekse multimodale interaktioner.

Til visuel behandling har Gemma 3n en yderst effektiv vision-encoder, MobileNet-V5-300M, der leverer topmoderne ydeevne til multimodale opgaver på edge-enheder. Denne encoder understøtter naturligt flere inputopløsninger (256x256, 512x512 og 768x768 pixels), udmærker sig i en bred vifte af billed- og videoforståelsesopgaver, og kan behandle op til 60 billeder i sekundet på en Google Pixel.

E4B-versionen opnår en LMArena-score på over 1300, hvilket gør den til den første model under 10 milliarder parametre, der når denne milepæl. Gemma 3n leverer kvalitetsforbedringer på tværs af flersprogethed, understøtter 140 sprog for tekst og multimodal forståelse af 35 sprog, samt forbedrede evner inden for matematik, kodning og ræsonnement.

Privatliv er et centralt element, da lokal eksekvering muliggør funktioner, der respekterer brugerens privatliv og fungerer pålideligt selv uden internetforbindelse. Modellen er skabt i tæt samarbejde med førende hardwareproducenter som Qualcomm Technologies, MediaTek og Samsungs System LSI-division, og er optimeret til lynhurtig, multimodal AI, hvilket muliggør ægte personlige og private oplevelser direkte på enhederne.

Den fulde lancering følger en forhåndsvisning på Google I/O i maj 2025, og modellen er nu tilgængelig gennem populære frameworks som Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama og MLX. Denne omfattende lancering giver udviklere mulighed for at skabe en ny generation af intelligente, on-device applikationer, der kan forstå og reagere på verden omkring dem.

Source:

Google lancerer Gemma 3n: Kraftfuld multimodal AI til mobile enheder

Latest News

OpenTools.AI lancerer daglig AI-oversigt for branchefolk

Helsings AI-droner forvandler Ukraines forsvarsstrategi

Tidligere OpenAI-CTO sikrer rekordstor investering på 2 mia. dollars til AI-startup

Stanfords EraDrive sikrer NASA-kontrakt på 1 mio. dollars til AI-teknologi i rummet

Hollywood-giganter kæmper mod AI-firma i skelsættende ophavsretssag

AI-revolution forvandler landskabet for føderale kontraktbud

Nvidia cementerer AI-lederskab med rekordvækst

AI-drevet hjernegrænseflade omsætter tanker til ord

Kinas AI-fremstød mindsker afstanden til USA, viser RAND-rapport

Fotoniske kvantechips øger AI-ydelse og reducerer energiforbrug markant

Google lancerer Gemma 3n: Kraftfuld multimodal AI til mobile enheder

Related Articles

OpenTools.AI lancerer daglig AI-oversigt for branchefolk

Kinas AI-fremstød mindsker afstanden til USA, viser RAND-rapport

Meta lancerer AI-satsning på 65 mia. dollars med nyt Superintelligence-laboratorium

TomTom Skærer Ned på Job, Mens AI Omformer Navigationsgigantens Fremtid

Anthropic Tacklerer AI's Økonomiske Indvirkning med Nyt Forskningsinitiativ

Latest News

OpenTools.AI lancerer daglig AI-oversigt for branchefolk

Helsings AI-droner forvandler Ukraines forsvarsstrategi

Tidligere OpenAI-CTO sikrer rekordstor investering på 2 mia. dollars til AI-startup

Stanfords EraDrive sikrer NASA-kontrakt på 1 mio. dollars til AI-teknologi i rummet

Hollywood-giganter kæmper mod AI-firma i skelsættende ophavsretssag

AI-revolution forvandler landskabet for føderale kontraktbud

Nvidia cementerer AI-lederskab med rekordvækst

AI-drevet hjernegrænseflade omsætter tanker til ord

Kinas AI-fremstød mindsker afstanden til USA, viser RAND-rapport

Fotoniske kvantechips øger AI-ydelse og reducerer energiforbrug markant