menu
close

Google predstavuje Gemma 3n: Výkonná multimodálna AI pre mobilné zariadenia

Google uviedol Gemma 3n, prelomový multimodálny AI model navrhnutý na efektívnu prevádzku na spotrebiteľských zariadeniach s pamäťou už od 2 GB. Model dokáže spracovať audio, text, obrázky aj video vstupy a funguje lokálne na telefónoch, tabletoch a notebookoch. Táto architektúra orientovaná na mobilné zariadenia, vyvinutá v spolupráci s výrobcami hardvéru ako Qualcomm, MediaTek a Samsung, predstavuje významný pokrok v sprístupnení výkonných AI riešení bez potreby pripojenia ku cloudu.
Google predstavuje Gemma 3n: Výkonná multimodálna AI pre mobilné zariadenia

Google oficiálne predstavil Gemma 3n, svoj najnovší otvorený multimodálny AI model špeciálne navrhnutý pre mobilné a edge zariadenia. Toto vydanie predstavuje významný míľnik v prenesení pokročilých AI schopností priamo na spotrebiteľský hardvér bez nutnosti spracovania v cloude.

Gemma 3n je dostupná v dvoch veľkostiach podľa efektívnych parametrov: E2B a E4B. Hoci ich hrubý počet parametrov je 5 miliárd (E2B) a 8 miliárd (E4B), vďaka architektonickým inováciám dokážu fungovať s pamäťovou stopou porovnateľnou s tradičnými 2B a 4B modelmi, pričom im stačí už 2 GB (E2B) a 3 GB (E4B) pamäte. Táto efektivita je dosiahnutá viacerými technickými inováciami, vrátane architektúry MatFormer a Per-Layer Embeddings.

Model je skutočne multimodálny už v základe, natívne podporuje vstupy v podobe obrázkov, audia, videa aj textu, pričom generuje textové výstupy. Rozšírené audio schopnosti umožňujú kvalitné automatické rozpoznávanie reči (transkripciu) a preklad z hovoreného slova na text. Model tiež prijíma prekladané vstupy naprieč modalitami, čo umožňuje porozumenie komplexným multimodálnym interakciám.

Pre vizuálne spracovanie obsahuje Gemma 3n vysoko efektívny vizuálny enkóder MobileNet-V5-300M, ktorý poskytuje špičkový výkon pre multimodálne úlohy na edge zariadeniach. Tento enkóder natívne podporuje viacero rozlíšení vstupov (256x256, 512x512 a 768x768 pixelov), vyniká v širokej škále úloh porozumenia obrazu a videa a dokáže spracovať až 60 snímok za sekundu na zariadení Google Pixel.

Verzia E4B dosahuje skóre LMArena nad 1300, čím sa stáva prvým modelom pod 10 miliárd parametrov, ktorý túto hranicu prekonal. Gemma 3n prináša zlepšenia v oblasti viacjazyčnosti, podporuje 140 jazykov pre text a multimodálne porozumenie v 35 jazykoch, ako aj vylepšené schopnosti v matematike, programovaní a logickom uvažovaní.

Ochrana súkromia je kľúčovou vlastnosťou, keďže lokálne spracovanie umožňuje funkcie rešpektujúce súkromie používateľa a spoľahlivo fungujú aj bez internetového pripojenia. Model vznikol v úzkej spolupráci s poprednými výrobcami mobilného hardvéru, ako sú Qualcomm Technologies, MediaTek a Samsung System LSI, a je optimalizovaný pre bleskurýchlu multimodálnu AI, ktorá umožňuje skutočne osobné a súkromné zážitky priamo na zariadeniach.

Plné vydanie nadväzuje na ukážku z Google I/O v máji 2025, pričom model je už dostupný cez populárne frameworky ako Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama a MLX. Toto komplexné uvedenie na trh dáva vývojárom do rúk nástroje na tvorbu novej generácie inteligentných aplikácií priamo na zariadeniach, ktoré dokážu porozumieť svetu okolo seba a reagovať naň.

Source:

Latest News