Google oficjalnie zaprezentowało Gemma 3n, najnowszy otwarty multimodalny model AI stworzony specjalnie z myślą o urządzeniach mobilnych i edge. To wydanie stanowi ważny krok w kierunku udostępnienia zaawansowanych możliwości AI bezpośrednio na sprzęcie konsumenckim, bez konieczności korzystania z przetwarzania w chmurze.
Gemma 3n występuje w dwóch wariantach, różniących się efektywną liczbą parametrów: E2B i E4B. Chociaż nominalna liczba parametrów to odpowiednio 5 mld i 8 mld, innowacje architektoniczne pozwalają na pracę z zapotrzebowaniem na pamięć porównywalnym do tradycyjnych modeli 2 mld i 4 mld parametrów, działając już przy 2 GB (E2B) i 3 GB (E4B) pamięci RAM. Wysoka efektywność została osiągnięta dzięki szeregowi innowacji technicznych, w tym architekturze MatFormer oraz Per-Layer Embeddings.
Model jest z założenia prawdziwie multimodalny, natywnie obsługując wejścia obrazowe, dźwiękowe, wideo oraz tekstowe, generując przy tym wyjścia tekstowe. Rozszerzone możliwości audio umożliwiają wysokiej jakości automatyczne rozpoznawanie mowy (transkrypcję) oraz tłumaczenie mowy na tekst. Model akceptuje także przeplatane wejścia z różnych modalności, co pozwala na zrozumienie złożonych interakcji multimodalnych.
W zakresie przetwarzania obrazu Gemma 3n wykorzystuje wysoce wydajny enkoder wizji MobileNet-V5-300M, zapewniający najnowocześniejsze wyniki w zadaniach multimodalnych na urządzeniach edge. Enkoder natywnie obsługuje wiele rozdzielczości wejściowych (256x256, 512x512 i 768x768 pikseli), doskonale radzi sobie z szerokim zakresem zadań związanych z rozumieniem obrazów i wideo oraz potrafi przetwarzać do 60 klatek na sekundę na urządzeniu Google Pixel.
Wersja E4B osiąga wynik LMArena powyżej 1300, co czyni ją pierwszym modelem poniżej 10 miliardów parametrów, który przekroczył ten próg. Gemma 3n oferuje poprawę jakości w zakresie wielojęzyczności, obsługując 140 języków tekstowych oraz multimodalne rozumienie w 35 językach, a także ulepszone możliwości matematyczne, programistyczne i logiczne.
Prywatność stanowi kluczowy aspekt – lokalne przetwarzanie pozwala na funkcje respektujące prywatność użytkownika i niezawodne działanie nawet bez połączenia z internetem. Model powstał we ścisłej współpracy z liderami rynku sprzętu mobilnego, takimi jak Qualcomm Technologies, MediaTek oraz Samsung System LSI, i został zoptymalizowany pod kątem błyskawicznego, multimodalnego AI, umożliwiając w pełni osobiste i prywatne doświadczenia bezpośrednio na urządzeniach.
Pełna premiera nastąpiła po zapowiedzi podczas Google I/O w maju 2025 roku. Model jest już dostępny w popularnych frameworkach, takich jak Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama oraz MLX. To kompleksowe wdrożenie daje deweloperom możliwość tworzenia nowej generacji inteligentnych aplikacji działających na urządzeniach, które potrafią rozumieć i reagować na otaczający je świat.