Google predstavuje Gemma 3n: Výkonná multimodálna AI pre mobilné zariadenia

Google uviedol Gemma 3n, prelomový multimodálny AI model navrhnutý na efektívnu prevádzku na spotrebiteľských zariadeniach s pamäťou už od 2 GB. Model dokáže spracovať audio, text, obrázky aj video vstupy a funguje lokálne na telefónoch, tabletoch a notebookoch. Táto architektúra orientovaná na mobilné zariadenia, vyvinutá v spolupráci s výrobcami hardvéru ako Qualcomm, MediaTek a Samsung, predstavuje významný pokrok v sprístupnení výkonných AI riešení bez potreby pripojenia ku cloudu.

Google oficiálne predstavil Gemma 3n, svoj najnovší otvorený multimodálny AI model špeciálne navrhnutý pre mobilné a edge zariadenia. Toto vydanie predstavuje významný míľnik v prenesení pokročilých AI schopností priamo na spotrebiteľský hardvér bez nutnosti spracovania v cloude.

Gemma 3n je dostupná v dvoch veľkostiach podľa efektívnych parametrov: E2B a E4B. Hoci ich hrubý počet parametrov je 5 miliárd (E2B) a 8 miliárd (E4B), vďaka architektonickým inováciám dokážu fungovať s pamäťovou stopou porovnateľnou s tradičnými 2B a 4B modelmi, pričom im stačí už 2 GB (E2B) a 3 GB (E4B) pamäte. Táto efektivita je dosiahnutá viacerými technickými inováciami, vrátane architektúry MatFormer a Per-Layer Embeddings.

Model je skutočne multimodálny už v základe, natívne podporuje vstupy v podobe obrázkov, audia, videa aj textu, pričom generuje textové výstupy. Rozšírené audio schopnosti umožňujú kvalitné automatické rozpoznávanie reči (transkripciu) a preklad z hovoreného slova na text. Model tiež prijíma prekladané vstupy naprieč modalitami, čo umožňuje porozumenie komplexným multimodálnym interakciám.

Pre vizuálne spracovanie obsahuje Gemma 3n vysoko efektívny vizuálny enkóder MobileNet-V5-300M, ktorý poskytuje špičkový výkon pre multimodálne úlohy na edge zariadeniach. Tento enkóder natívne podporuje viacero rozlíšení vstupov (256x256, 512x512 a 768x768 pixelov), vyniká v širokej škále úloh porozumenia obrazu a videa a dokáže spracovať až 60 snímok za sekundu na zariadení Google Pixel.

Verzia E4B dosahuje skóre LMArena nad 1300, čím sa stáva prvým modelom pod 10 miliárd parametrov, ktorý túto hranicu prekonal. Gemma 3n prináša zlepšenia v oblasti viacjazyčnosti, podporuje 140 jazykov pre text a multimodálne porozumenie v 35 jazykoch, ako aj vylepšené schopnosti v matematike, programovaní a logickom uvažovaní.

Ochrana súkromia je kľúčovou vlastnosťou, keďže lokálne spracovanie umožňuje funkcie rešpektujúce súkromie používateľa a spoľahlivo fungujú aj bez internetového pripojenia. Model vznikol v úzkej spolupráci s poprednými výrobcami mobilného hardvéru, ako sú Qualcomm Technologies, MediaTek a Samsung System LSI, a je optimalizovaný pre bleskurýchlu multimodálnu AI, ktorá umožňuje skutočne osobné a súkromné zážitky priamo na zariadeniach.

Plné vydanie nadväzuje na ukážku z Google I/O v máji 2025, pričom model je už dostupný cez populárne frameworky ako Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama a MLX. Toto komplexné uvedenie na trh dáva vývojárom do rúk nástroje na tvorbu novej generácie inteligentných aplikácií priamo na zariadeniach, ktoré dokážu porozumieť svetu okolo seba a reagovať naň.

Source:

Google predstavuje Gemma 3n: Výkonná multimodálna AI pre mobilné zariadenia

Latest News

OpenTools.AI spúšťa Denný AI Digest pre odborníkov z odvetvia

AI drony spoločnosti Helsing menia obrannú stratégiu Ukrajiny

Bývalá CTO OpenAI získala rekordných 2 miliardy dolárov pre AI startup

Stanfordský EraDrive získal kontrakt NASA vo výške 1 milióna dolárov na AI technológiu pre vesmír

Hollywoodske giganty bojujú s AI firmou v prelomovom prípade o autorské práva

Revolúcia umelej inteligencie mení prostredie federálneho obstarávania

Nvidia upevňuje vedúce postavenie v oblasti AI rekordným rastom

Rozhranie poháňané umelou inteligenciou premieňa myšlienky na slová

Čína dobieha USA v oblasti umelej inteligencie, ukazuje štúdia RAND

Fotónové kvantové čipy zvyšujú výkon umelej inteligencie a výrazne znižujú spotrebu energie

Google predstavuje Gemma 3n: Výkonná multimodálna AI pre mobilné zariadenia

Related Articles

OpenTools.AI spúšťa Denný AI Digest pre odborníkov z odvetvia

Čína dobieha USA v oblasti umelej inteligencie, ukazuje štúdia RAND

Meta spúšťa AI iniciatívu za 65 miliárd dolárov s novým laboratóriom superinteligencie

TomTom prepúšťa zamestnancov, keď AI mení budúcnosť navigačného giganta

Anthropic rieši ekonomický dopad umelej inteligencie novou výskumnou iniciatívou

Latest News

OpenTools.AI spúšťa Denný AI Digest pre odborníkov z odvetvia

AI drony spoločnosti Helsing menia obrannú stratégiu Ukrajiny

Bývalá CTO OpenAI získala rekordných 2 miliardy dolárov pre AI startup

Stanfordský EraDrive získal kontrakt NASA vo výške 1 milióna dolárov na AI technológiu pre vesmír

Hollywoodske giganty bojujú s AI firmou v prelomovom prípade o autorské práva

Revolúcia umelej inteligencie mení prostredie federálneho obstarávania

Nvidia upevňuje vedúce postavenie v oblasti AI rekordným rastom

Rozhranie poháňané umelou inteligenciou premieňa myšlienky na slová

Čína dobieha USA v oblasti umelej inteligencie, ukazuje štúdia RAND

Fotónové kvantové čipy zvyšujú výkon umelej inteligencie a výrazne znižujú spotrebu energie