menu
close

Ipinakilala ng Google ang Gemma 3n: Makapangyarihang Multimodal AI para sa Mga Mobile Device

Inilabas ng Google ang Gemma 3n, isang makabagong multimodal AI model na dinisenyo upang tumakbo nang mahusay sa mga consumer device na may memorya na kasingbaba ng 2GB. Kayang iproseso ng modelong ito ang audio, teksto, larawan, at video habang gumagana nang lokal sa mga telepono, tablet, at laptop. Ang mobile-first na arkitekturang ito, na binuo katuwang ang mga hardware manufacturer tulad ng Qualcomm, MediaTek, at Samsung, ay isang malaking hakbang sa pagpapalapit ng makapangyarihang AI sa mga tao kahit walang koneksyon sa cloud.
Ipinakilala ng Google ang Gemma 3n: Makapangyarihang Multimodal AI para sa Mga Mobile Device

Opisyal nang inilunsad ng Google ang Gemma 3n, ang pinakabagong open multimodal AI model na partikular na idinisenyo para sa mga mobile at edge device. Ang paglabas na ito ay isang mahalagang tagumpay sa pagbibigay ng advanced na AI capabilities direkta sa mga consumer hardware nang hindi na kailangan ng cloud processing.

Ang Gemma 3n ay may dalawang bersyon batay sa effective parameters: E2B at E4B. Habang ang raw parameter counts ng mga ito ay 5B at 8B ayon sa pagkakasunod, ang mga inobasyon sa arkitektura ay nagpapahintulot na tumakbo ang mga ito na may memory footprint na katulad ng tradisyonal na 2B at 4B models—gamit lamang ang 2GB (E2B) at 3GB (E4B) ng memorya. Nakamit ang kahusayang ito sa pamamagitan ng ilang teknikal na inobasyon, kabilang ang MatFormer architecture at Per-Layer Embeddings.

Tunay na multimodal ang disenyo ng modelong ito, na natively sumusuporta sa input ng larawan, audio, video, at teksto habang naglalabas ng text output. Pinalawak pa ang kakayahan nito sa audio, na nagbibigay-daan sa mataas na kalidad na automatic speech recognition (transcription) at pagsasalin mula sa pagsasalita tungo sa teksto. Bukod dito, tumatanggap ang model ng magkakahalong input mula sa iba't ibang modality, kaya nitong unawain ang masalimuot na multimodal na interaksyon.

Para sa visual processing, tampok ng Gemma 3n ang isang napakaepektibong vision encoder, ang MobileNet-V5-300M, na nagbibigay ng state-of-the-art na performance para sa multimodal tasks sa edge devices. Natively nitong sinusuportahan ang iba't ibang input resolution (256x256, 512x512, at 768x768 pixels), mahusay sa malawak na hanay ng image at video comprehension tasks, at kayang magproseso ng hanggang 60 frames per second sa isang Google Pixel.

Ang E4B na bersyon ay nakakamit ng LMArena score na higit sa 1300, kaya ito ang kauna-unahang model na may mas mababa sa 10 bilyong parameters na umabot sa benchmark na ito. Nagdadala ang Gemma 3n ng mga pagbuti sa kalidad sa multilinguality, sumusuporta sa 140 wika para sa text at multimodal na pag-unawa sa 35 wika, gayundin ng pinahusay na kakayahan sa matematika, pag-coding, at reasoning.

Pangunahing tampok din ang privacy, dahil ang lokal na pagpapatakbo ay nagbibigay-daan sa mga feature na gumagalang sa privacy ng user at maaasahang gumagana kahit walang internet connection. Ang modelong ito ay nilikha sa malapit na pakikipagtulungan sa mga nangungunang kumpanya sa mobile hardware tulad ng Qualcomm Technologies, MediaTek, at Samsung System LSI business, at na-optimize para sa napakabilis, multimodal na AI, na nagbibigay-daan sa tunay na personal at pribadong karanasan direkta sa device.

Ang buong release ay kasunod ng preview sa Google I/O noong Mayo 2025, at ngayon ay available na ang model sa mga popular na framework kabilang ang Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama, at MLX. Sa komprehensibong paglulunsad na ito, nabibigyan ng kapangyarihan ang mga developer na bumuo ng bagong henerasyon ng matatalinong on-device applications na kayang umunawa at tumugon sa mundo sa paligid nila.

Source:

Latest News