menu
close

Google Memperkenalkan Gemma 3n: AI Multimodal Berkuasa untuk Peranti Mudah Alih

Google telah melancarkan Gemma 3n, model AI multimodal termaju yang direka untuk beroperasi secara cekap pada peranti pengguna dengan hanya 2GB memori. Model ini mampu memproses input audio, teks, imej, dan video sambil beroperasi secara setempat pada telefon, tablet, dan komputer riba. Seni bina berorientasikan mudah alih ini, dibangunkan bersama pengeluar perkakasan seperti Qualcomm, MediaTek, dan Samsung, mewakili kemajuan besar dalam menjadikan AI berkuasa boleh diakses tanpa sambungan awan.
Google Memperkenalkan Gemma 3n: AI Multimodal Berkuasa untuk Peranti Mudah Alih

Google secara rasmi telah melancarkan Gemma 3n, model AI multimodal terbuka terbaharu yang direka khusus untuk peranti mudah alih dan tepi. Pelancaran ini menandakan satu pencapaian penting dalam membawa keupayaan AI canggih terus ke perkakasan pengguna tanpa memerlukan pemprosesan awan.

Gemma 3n hadir dalam dua saiz berdasarkan parameter efektif: E2B dan E4B. Walaupun jumlah parameter mentah mereka ialah 5B dan 8B masing-masing, inovasi seni bina membolehkan ia beroperasi dengan penggunaan memori yang setara dengan model tradisional 2B dan 4B, iaitu hanya memerlukan 2GB (E2B) dan 3GB (E4B) memori. Kecekapan ini dicapai melalui beberapa inovasi teknikal, termasuk seni bina MatFormer dan Per-Layer Embeddings.

Model ini benar-benar multimodal secara reka bentuk, menyokong input imej, audio, video, dan teks secara asli sambil menghasilkan output teks. Keupayaan audio yang dipertingkatkan membolehkan pengecaman pertuturan automatik (transkripsi) dan terjemahan pertuturan ke teks berkualiti tinggi. Selain itu, model ini menerima input berselang-seli merentasi pelbagai mod, membolehkan pemahaman interaksi multimodal yang kompleks.

Untuk pemprosesan visual, Gemma 3n menampilkan pengekod visi yang sangat cekap, MobileNet-V5-300M, yang menawarkan prestasi terkini untuk tugasan multimodal pada peranti tepi. Pengekod ini menyokong pelbagai resolusi input secara asli (256x256, 512x512, dan 768x768 piksel), cemerlang dalam pelbagai tugasan pemahaman imej dan video, serta mampu memproses sehingga 60 bingkai sesaat pada Google Pixel.

Versi E4B mencapai skor LMArena melebihi 1300, menjadikannya model pertama di bawah 10 bilion parameter yang mencapai penanda aras ini. Gemma 3n menawarkan peningkatan kualiti merentasi pelbagai bahasa, menyokong 140 bahasa untuk teks dan pemahaman multimodal dalam 35 bahasa, serta keupayaan matematik, pengekodan, dan penaakulan yang dipertingkatkan.

Privasi merupakan ciri utama, kerana pelaksanaan setempat membolehkan ciri yang menghormati privasi pengguna dan berfungsi dengan boleh dipercayai walaupun tanpa sambungan internet. Model ini dibangunkan dengan kerjasama rapat bersama peneraju perkakasan mudah alih seperti Qualcomm Technologies, MediaTek, dan perniagaan System LSI Samsung, serta dioptimumkan untuk AI multimodal yang sangat pantas, membolehkan pengalaman peribadi dan privasi sepenuhnya terus pada peranti.

Pelancaran penuh ini menyusuli pratonton di Google I/O pada Mei 2025, dengan model kini tersedia melalui rangka kerja popular termasuk Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama, dan MLX. Pelancaran menyeluruh ini memberi kuasa kepada pembangun untuk membina generasi baharu aplikasi pintar di atas peranti yang mampu memahami dan bertindak balas terhadap dunia di sekeliling mereka.

Source:

Latest News