Google prezentuje Gemma 3n: Potężna multimodalna AI dla urządzeń mobilnych

Google wprowadziło Gemma 3n – przełomowy, multimodalny model AI zaprojektowany do wydajnej pracy na urządzeniach konsumenckich z zaledwie 2 GB pamięci RAM. Model potrafi przetwarzać dane audio, tekstowe, obrazowe i wideo, działając lokalnie na smartfonach, tabletach i laptopach. Ta architektura zorientowana na urządzenia mobilne, opracowana we współpracy z producentami sprzętu takimi jak Qualcomm, MediaTek i Samsung, stanowi istotny krok naprzód w udostępnianiu zaawansowanej AI bez konieczności połączenia z chmurą.

Google oficjalnie zaprezentowało Gemma 3n, najnowszy otwarty multimodalny model AI stworzony specjalnie z myślą o urządzeniach mobilnych i edge. To wydanie stanowi ważny krok w kierunku udostępnienia zaawansowanych możliwości AI bezpośrednio na sprzęcie konsumenckim, bez konieczności korzystania z przetwarzania w chmurze.

Gemma 3n występuje w dwóch wariantach, różniących się efektywną liczbą parametrów: E2B i E4B. Chociaż nominalna liczba parametrów to odpowiednio 5 mld i 8 mld, innowacje architektoniczne pozwalają na pracę z zapotrzebowaniem na pamięć porównywalnym do tradycyjnych modeli 2 mld i 4 mld parametrów, działając już przy 2 GB (E2B) i 3 GB (E4B) pamięci RAM. Wysoka efektywność została osiągnięta dzięki szeregowi innowacji technicznych, w tym architekturze MatFormer oraz Per-Layer Embeddings.

Model jest z założenia prawdziwie multimodalny, natywnie obsługując wejścia obrazowe, dźwiękowe, wideo oraz tekstowe, generując przy tym wyjścia tekstowe. Rozszerzone możliwości audio umożliwiają wysokiej jakości automatyczne rozpoznawanie mowy (transkrypcję) oraz tłumaczenie mowy na tekst. Model akceptuje także przeplatane wejścia z różnych modalności, co pozwala na zrozumienie złożonych interakcji multimodalnych.

W zakresie przetwarzania obrazu Gemma 3n wykorzystuje wysoce wydajny enkoder wizji MobileNet-V5-300M, zapewniający najnowocześniejsze wyniki w zadaniach multimodalnych na urządzeniach edge. Enkoder natywnie obsługuje wiele rozdzielczości wejściowych (256x256, 512x512 i 768x768 pikseli), doskonale radzi sobie z szerokim zakresem zadań związanych z rozumieniem obrazów i wideo oraz potrafi przetwarzać do 60 klatek na sekundę na urządzeniu Google Pixel.

Wersja E4B osiąga wynik LMArena powyżej 1300, co czyni ją pierwszym modelem poniżej 10 miliardów parametrów, który przekroczył ten próg. Gemma 3n oferuje poprawę jakości w zakresie wielojęzyczności, obsługując 140 języków tekstowych oraz multimodalne rozumienie w 35 językach, a także ulepszone możliwości matematyczne, programistyczne i logiczne.

Prywatność stanowi kluczowy aspekt – lokalne przetwarzanie pozwala na funkcje respektujące prywatność użytkownika i niezawodne działanie nawet bez połączenia z internetem. Model powstał we ścisłej współpracy z liderami rynku sprzętu mobilnego, takimi jak Qualcomm Technologies, MediaTek oraz Samsung System LSI, i został zoptymalizowany pod kątem błyskawicznego, multimodalnego AI, umożliwiając w pełni osobiste i prywatne doświadczenia bezpośrednio na urządzeniach.

Pełna premiera nastąpiła po zapowiedzi podczas Google I/O w maju 2025 roku. Model jest już dostępny w popularnych frameworkach, takich jak Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama oraz MLX. To kompleksowe wdrożenie daje deweloperom możliwość tworzenia nowej generacji inteligentnych aplikacji działających na urządzeniach, które potrafią rozumieć i reagować na otaczający je świat.

Source:

Google prezentuje Gemma 3n: Potężna multimodalna AI dla urządzeń mobilnych

Latest News

OpenTools.AI uruchamia codzienny przegląd AI dla profesjonalistów z branży

Drony AI firmy Helsing rewolucjonizują strategię obronną Ukrainy

Była CTO OpenAI pozyskuje rekordowe 2 mld dolarów dla startupu AI

EraDrive ze Stanfordu zdobywa kontrakt NASA wart 1 mln dolarów na technologię AI dla kosmosu

Giganci Hollywood pozywają firmę AI w przełomowej sprawie o prawa autorskie

Rewolucja AI zmienia krajobraz przetargów federalnych

Nvidia umacnia pozycję lidera AI dzięki rekordowej ścieżce wzrostu

Interfejs mózg–komputer zasilany AI zamienia myśli w słowa

Chińska ofensywa w AI zmniejsza dystans do USA – wynika z raportu RAND

Fotoniczne układy kwantowe zwiększają wydajność AI i radykalnie ograniczają zużycie energii

Google prezentuje Gemma 3n: Potężna multimodalna AI dla urządzeń mobilnych

Related Articles

OpenTools.AI uruchamia codzienny przegląd AI dla profesjonalistów z branży

Chińska ofensywa w AI zmniejsza dystans do USA – wynika z raportu RAND

Meta rozpoczyna ofensywę AI wartą 65 mld dolarów – nowa jednostka Superintelligence Lab

TomTom redukuje zatrudnienie, gdy AI kształtuje przyszłość giganta nawigacji

Anthropic podejmuje wyzwanie wpływu AI na gospodarkę dzięki nowej inicjatywie badawczej

Latest News

OpenTools.AI uruchamia codzienny przegląd AI dla profesjonalistów z branży

Drony AI firmy Helsing rewolucjonizują strategię obronną Ukrainy

Była CTO OpenAI pozyskuje rekordowe 2 mld dolarów dla startupu AI

EraDrive ze Stanfordu zdobywa kontrakt NASA wart 1 mln dolarów na technologię AI dla kosmosu

Giganci Hollywood pozywają firmę AI w przełomowej sprawie o prawa autorskie

Rewolucja AI zmienia krajobraz przetargów federalnych

Nvidia umacnia pozycję lidera AI dzięki rekordowej ścieżce wzrostu

Interfejs mózg–komputer zasilany AI zamienia myśli w słowa

Chińska ofensywa w AI zmniejsza dystans do USA – wynika z raportu RAND

Fotoniczne układy kwantowe zwiększają wydajność AI i radykalnie ograniczają zużycie energii