Google Memperkenalkan Gemma 3n: AI Multimodal Berkuasa untuk Peranti Mudah Alih

Google telah melancarkan Gemma 3n, model AI multimodal termaju yang direka untuk beroperasi secara cekap pada peranti pengguna dengan hanya 2GB memori. Model ini mampu memproses input audio, teks, imej, dan video sambil beroperasi secara setempat pada telefon, tablet, dan komputer riba. Seni bina berorientasikan mudah alih ini, dibangunkan bersama pengeluar perkakasan seperti Qualcomm, MediaTek, dan Samsung, mewakili kemajuan besar dalam menjadikan AI berkuasa boleh diakses tanpa sambungan awan.

Google secara rasmi telah melancarkan Gemma 3n, model AI multimodal terbuka terbaharu yang direka khusus untuk peranti mudah alih dan tepi. Pelancaran ini menandakan satu pencapaian penting dalam membawa keupayaan AI canggih terus ke perkakasan pengguna tanpa memerlukan pemprosesan awan.

Gemma 3n hadir dalam dua saiz berdasarkan parameter efektif: E2B dan E4B. Walaupun jumlah parameter mentah mereka ialah 5B dan 8B masing-masing, inovasi seni bina membolehkan ia beroperasi dengan penggunaan memori yang setara dengan model tradisional 2B dan 4B, iaitu hanya memerlukan 2GB (E2B) dan 3GB (E4B) memori. Kecekapan ini dicapai melalui beberapa inovasi teknikal, termasuk seni bina MatFormer dan Per-Layer Embeddings.

Model ini benar-benar multimodal secara reka bentuk, menyokong input imej, audio, video, dan teks secara asli sambil menghasilkan output teks. Keupayaan audio yang dipertingkatkan membolehkan pengecaman pertuturan automatik (transkripsi) dan terjemahan pertuturan ke teks berkualiti tinggi. Selain itu, model ini menerima input berselang-seli merentasi pelbagai mod, membolehkan pemahaman interaksi multimodal yang kompleks.

Untuk pemprosesan visual, Gemma 3n menampilkan pengekod visi yang sangat cekap, MobileNet-V5-300M, yang menawarkan prestasi terkini untuk tugasan multimodal pada peranti tepi. Pengekod ini menyokong pelbagai resolusi input secara asli (256x256, 512x512, dan 768x768 piksel), cemerlang dalam pelbagai tugasan pemahaman imej dan video, serta mampu memproses sehingga 60 bingkai sesaat pada Google Pixel.

Versi E4B mencapai skor LMArena melebihi 1300, menjadikannya model pertama di bawah 10 bilion parameter yang mencapai penanda aras ini. Gemma 3n menawarkan peningkatan kualiti merentasi pelbagai bahasa, menyokong 140 bahasa untuk teks dan pemahaman multimodal dalam 35 bahasa, serta keupayaan matematik, pengekodan, dan penaakulan yang dipertingkatkan.

Privasi merupakan ciri utama, kerana pelaksanaan setempat membolehkan ciri yang menghormati privasi pengguna dan berfungsi dengan boleh dipercayai walaupun tanpa sambungan internet. Model ini dibangunkan dengan kerjasama rapat bersama peneraju perkakasan mudah alih seperti Qualcomm Technologies, MediaTek, dan perniagaan System LSI Samsung, serta dioptimumkan untuk AI multimodal yang sangat pantas, membolehkan pengalaman peribadi dan privasi sepenuhnya terus pada peranti.

Pelancaran penuh ini menyusuli pratonton di Google I/O pada Mei 2025, dengan model kini tersedia melalui rangka kerja popular termasuk Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama, dan MLX. Pelancaran menyeluruh ini memberi kuasa kepada pembangun untuk membina generasi baharu aplikasi pintar di atas peranti yang mampu memahami dan bertindak balas terhadap dunia di sekeliling mereka.

Source:

Google Memperkenalkan Gemma 3n: AI Multimodal Berkuasa untuk Peranti Mudah Alih

Latest News

OpenTools.AI Lancar Ringkasan AI Harian untuk Profesional Industri

Drone AI Helsing Mengubah Strategi Pertahanan Ukraine

Bekas CTO OpenAI Raih Rekod $2 Bilion untuk Permulaan AI

EraDrive Stanford Raih Kontrak $1 Juta NASA untuk Teknologi AI Angkasa

Gergasi Hollywood Lawan Syarikat AI dalam Kes Hak Cipta Bersejarah

Revolusi AI Mengubah Lanskap Pembidaan Kontrak Persekutuan

Nvidia Kukuhkan Kepimpinan AI dengan Trajektori Pertumbuhan Rekod

Antara Muka Otak Dikuasakan AI Menukar Fikiran Menjadi Kata-Kata

Usaha AI China Semakin Hampir Menyaingi AS, Laporan RAND Dedahkan

Cip Kuantum Fotonik Tingkatkan Prestasi AI Sambil Mengurangkan Penggunaan Tenaga

Google Memperkenalkan Gemma 3n: AI Multimodal Berkuasa untuk Peranti Mudah Alih

Related Articles

OpenTools.AI Lancar Ringkasan AI Harian untuk Profesional Industri

Usaha AI China Semakin Hampir Menyaingi AS, Laporan RAND Dedahkan

Meta Melancarkan Usaha AI Bernilai $65 Bilion dengan Makmal Superintelligence Baharu

TomTom Kurangkan Pekerja Ketika AI Membentuk Semula Masa Depan Gergasi Navigasi Ini

Anthropic Tangani Implikasi Ekonomi AI dengan Inisiatif Penyelidikan Baharu

Latest News

OpenTools.AI Lancar Ringkasan AI Harian untuk Profesional Industri

Drone AI Helsing Mengubah Strategi Pertahanan Ukraine

Bekas CTO OpenAI Raih Rekod $2 Bilion untuk Permulaan AI

EraDrive Stanford Raih Kontrak $1 Juta NASA untuk Teknologi AI Angkasa

Gergasi Hollywood Lawan Syarikat AI dalam Kes Hak Cipta Bersejarah

Revolusi AI Mengubah Lanskap Pembidaan Kontrak Persekutuan

Nvidia Kukuhkan Kepimpinan AI dengan Trajektori Pertumbuhan Rekod

Antara Muka Otak Dikuasakan AI Menukar Fikiran Menjadi Kata-Kata

Usaha AI China Semakin Hampir Menyaingi AS, Laporan RAND Dedahkan

Cip Kuantum Fotonik Tingkatkan Prestasi AI Sambil Mengurangkan Penggunaan Tenaga