menu
close

Google představuje Gemma 3n: Výkonná multimodální AI pro mobilní zařízení

Google uvedl Gemma 3n, průlomový multimodální AI model navržený pro efektivní běh na spotřebitelských zařízeních s pouhými 2 GB paměti. Model dokáže zpracovávat audio, text, obrázky i video vstupy a funguje lokálně na telefonech, tabletech i noteboocích. Tato architektura zaměřená na mobilní zařízení, vyvinutá ve spolupráci s výrobci hardwaru jako Qualcomm, MediaTek a Samsung, představuje významný pokrok v dostupnosti výkonné AI bez nutnosti připojení ke cloudu.
Google představuje Gemma 3n: Výkonná multimodální AI pro mobilní zařízení

Google oficiálně spustil Gemma 3n, svůj nejnovější otevřený multimodální AI model navržený speciálně pro mobilní a edge zařízení. Toto vydání představuje významný milník v přenesení pokročilých AI schopností přímo na spotřebitelský hardware bez nutnosti cloudového zpracování.

Gemma 3n je dostupná ve dvou velikostech podle efektivního počtu parametrů: E2B a E4B. Ačkoliv mají tyto modely v hrubých číslech 5 miliard a 8 miliard parametrů, díky architektonickým inovacím dokáží běžet s paměťovou náročností srovnatelnou s tradičními 2B a 4B modely, a to s pouhými 2 GB (E2B) a 3 GB (E4B) paměti. Tato efektivita je dosažena díky několika technickým inovacím, včetně architektury MatFormer a Per-Layer Embeddings.

Model je od základu skutečně multimodální, nativně podporuje vstupy ve formě obrázků, audia, videa i textu a generuje textové výstupy. Rozšířené audio schopnosti umožňují vysoce kvalitní automatické rozpoznávání řeči (transkripci) a překlad z řeči do textu. Model navíc přijímá prokládané vstupy napříč modalitami, což umožňuje porozumění složitým multimodálním interakcím.

Pro vizuální zpracování je Gemma 3n vybavena vysoce efektivním vizuálním enkodérem MobileNet-V5-300M, který poskytuje špičkový výkon pro multimodální úlohy na edge zařízeních. Tento enkodér nativně podporuje více vstupních rozlišení (256x256, 512x512 a 768x768 pixelů), vyniká v široké škále úloh porozumění obrazu a videa a dokáže zpracovat až 60 snímků za sekundu na zařízení Google Pixel.

Verze E4B dosahuje skóre LMArena přes 1300, což z ní činí první model pod 10 miliard parametrů, který této hranice dosáhl. Gemma 3n přináší zlepšení kvality napříč vícejazyčností, podporuje 140 jazyků pro text a multimodální porozumění ve 35 jazycích, stejně jako vylepšené schopnosti v matematice, programování a logickém uvažování.

Ochrana soukromí je klíčovou vlastností, protože lokální zpracování umožňuje funkce, které respektují soukromí uživatele a fungují spolehlivě i bez připojení k internetu. Model vznikl v úzké spolupráci s předními výrobci mobilního hardwaru, jako jsou Qualcomm Technologies, MediaTek a divize System LSI společnosti Samsung, a je optimalizován pro bleskově rychlou multimodální AI, což umožňuje skutečně osobní a soukromé zážitky přímo na zařízeních.

Plné vydání následuje po představení na Google I/O v květnu 2025 a model je nyní dostupný prostřednictvím populárních frameworků, včetně Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama a MLX. Toto komplexní spuštění dává vývojářům do rukou nástroje k tvorbě nové generace inteligentních aplikací přímo na zařízeních, které dokáží porozumět světu kolem sebe a reagovat na něj.

Source:

Latest News