Google oficiálně spustil Gemma 3n, svůj nejnovější otevřený multimodální AI model navržený speciálně pro mobilní a edge zařízení. Toto vydání představuje významný milník v přenesení pokročilých AI schopností přímo na spotřebitelský hardware bez nutnosti cloudového zpracování.
Gemma 3n je dostupná ve dvou velikostech podle efektivního počtu parametrů: E2B a E4B. Ačkoliv mají tyto modely v hrubých číslech 5 miliard a 8 miliard parametrů, díky architektonickým inovacím dokáží běžet s paměťovou náročností srovnatelnou s tradičními 2B a 4B modely, a to s pouhými 2 GB (E2B) a 3 GB (E4B) paměti. Tato efektivita je dosažena díky několika technickým inovacím, včetně architektury MatFormer a Per-Layer Embeddings.
Model je od základu skutečně multimodální, nativně podporuje vstupy ve formě obrázků, audia, videa i textu a generuje textové výstupy. Rozšířené audio schopnosti umožňují vysoce kvalitní automatické rozpoznávání řeči (transkripci) a překlad z řeči do textu. Model navíc přijímá prokládané vstupy napříč modalitami, což umožňuje porozumění složitým multimodálním interakcím.
Pro vizuální zpracování je Gemma 3n vybavena vysoce efektivním vizuálním enkodérem MobileNet-V5-300M, který poskytuje špičkový výkon pro multimodální úlohy na edge zařízeních. Tento enkodér nativně podporuje více vstupních rozlišení (256x256, 512x512 a 768x768 pixelů), vyniká v široké škále úloh porozumění obrazu a videa a dokáže zpracovat až 60 snímků za sekundu na zařízení Google Pixel.
Verze E4B dosahuje skóre LMArena přes 1300, což z ní činí první model pod 10 miliard parametrů, který této hranice dosáhl. Gemma 3n přináší zlepšení kvality napříč vícejazyčností, podporuje 140 jazyků pro text a multimodální porozumění ve 35 jazycích, stejně jako vylepšené schopnosti v matematice, programování a logickém uvažování.
Ochrana soukromí je klíčovou vlastností, protože lokální zpracování umožňuje funkce, které respektují soukromí uživatele a fungují spolehlivě i bez připojení k internetu. Model vznikl v úzké spolupráci s předními výrobci mobilního hardwaru, jako jsou Qualcomm Technologies, MediaTek a divize System LSI společnosti Samsung, a je optimalizován pro bleskově rychlou multimodální AI, což umožňuje skutečně osobní a soukromé zážitky přímo na zařízeních.
Plné vydání následuje po představení na Google I/O v květnu 2025 a model je nyní dostupný prostřednictvím populárních frameworků, včetně Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama a MLX. Toto komplexní spuštění dává vývojářům do rukou nástroje k tvorbě nové generace inteligentních aplikací přímo na zařízeních, které dokáží porozumět světu kolem sebe a reagovat na něj.