menu
close

Google esittelee Gemma 3n:n: Tehokas multimodaalinen tekoäly mobiililaitteille

Google on julkaissut Gemma 3n:n, mullistavan multimodaalisen tekoälymallin, joka on suunniteltu toimimaan tehokkaasti kuluttajalaitteissa vain 2 gigatavun muistilla. Malli kykenee käsittelemään ääni-, teksti-, kuva- ja videoinputteja ja toimii paikallisesti puhelimissa, tableteissa ja kannettavissa tietokoneissa. Tämä mobiililähtöinen arkkitehtuuri, joka on kehitetty yhteistyössä laitevalmistajien kuten Qualcommin, MediaTekin ja Samsungin kanssa, edustaa merkittävää harppausta tehokkaan tekoälyn tuomisessa saataville ilman pilviyhteyttä.
Google esittelee Gemma 3n:n: Tehokas multimodaalinen tekoäly mobiililaitteille

Google on virallisesti julkaissut Gemma 3n:n, uusimman avoimen multimodaalisen tekoälymallinsa, joka on suunniteltu erityisesti mobiili- ja reunalaitteille. Tämä julkaisu merkitsee merkittävää virstanpylvästä kehittyneiden tekoälyominaisuuksien tuomisessa suoraan kuluttajalaitteisiin ilman pilviprosessointia.

Gemma 3n:stä on saatavilla kaksi versiota tehokkaiden parametrien perusteella: E2B ja E4B. Vaikka mallien raakaparametrimäärät ovat 5 miljardia ja 8 miljardia, arkkitehtuurilliset innovaatiot mahdollistavat niiden toiminnan muistijäljellä, joka vastaa perinteisiä 2B- ja 4B-malleja, käyttäen vain 2 Gt (E2B) ja 3 Gt (E4B) muistia. Tämä tehokkuus saavutetaan useilla teknisillä innovaatioilla, kuten MatFormer-arkkitehtuurilla ja kerroskohtaisilla upotuksilla (Per-Layer Embeddings).

Malli on aidosti multimodaalinen, sillä se tukee natiivisti kuva-, ääni-, video- ja teksti-inputteja ja tuottaa tekstimuotoisia vastauksia. Laajennetut äänitoiminnot mahdollistavat korkealaatuisen automaattisen puheentunnistuksen (transkriptio) sekä puheesta tekstiksi -käännökset. Lisäksi malli hyväksyy lomitettuja syötteitä eri modaliteettien välillä, mahdollistaen monimutkaisten multimodaalisten vuorovaikutusten ymmärtämisen.

Visuaalista prosessointia varten Gemma 3n sisältää erittäin tehokkaan MobileNet-V5-300M -näköenkooderin, joka tarjoaa huipputason suorituskykyä multimodaalisissa tehtävissä reunalaitteilla. Tämä enkooderi tukee natiivisti useita syöteresoluutioita (256x256, 512x512 ja 768x768 pikseliä), suoriutuu erinomaisesti laajasta joukosta kuva- ja videoymmärrystehtäviä ja kykenee käsittelemään jopa 60 kuvaa sekunnissa Google Pixel -laitteella.

E4B-versio saavuttaa LMArena-pisteytyksessä yli 1300 pistettä, mikä tekee siitä ensimmäisen alle 10 miljardin parametrin mallin, joka yltää tähän rajapyykkiin. Gemma 3n tarjoaa laadun parannuksia monikielisyydessä, tukien 140 kieltä tekstin ja 35 kieltä multimodaalisen ymmärryksen osalta, sekä parannettuja matemaattisia, koodaus- ja päättelyominaisuuksia.

Yksityisyys on keskeinen ominaisuus, sillä paikallinen suoritus mahdollistaa käyttäjän yksityisyyttä kunnioittavat toiminnot ja luotettavan käytön myös ilman internet-yhteyttä. Malli on luotu tiiviissä yhteistyössä mobiililaitteiden johtavien laitevalmistajien, kuten Qualcomm Technologiesin, MediaTekin ja Samsungin System LSI -liiketoiminnan kanssa, ja se on optimoitu salamannopeaan, multimodaaliseen tekoälyyn, mahdollistaen aidosti henkilökohtaiset ja yksityiset kokemukset suoraan laitteilla.

Koko julkaisu seuraa toukokuussa 2025 Google I/O:ssa esiteltyä ennakkoversiota, ja malli on nyt saatavilla suosittujen kehitysalustojen, kuten Hugging Face Transformersin, llama.cpp:n, Google AI Edgen, Ollaman ja MLX:n kautta. Tämä kattava julkaisu antaa kehittäjille mahdollisuuden rakentaa uuden sukupolven älykkäitä, laitteella toimivia sovelluksia, jotka kykenevät ymmärtämään ja reagoimaan ympäröivään maailmaan.

Source:

Latest News