menu
close

Google Luncurkan Gemma 3n: AI Multimodal Andal untuk Perangkat Mobile

Google telah merilis Gemma 3n, model AI multimodal revolusioner yang dirancang untuk berjalan efisien pada perangkat konsumen dengan memori serendah 2GB. Model ini mampu memproses input audio, teks, gambar, dan video secara lokal di ponsel, tablet, dan laptop. Arsitektur mobile-first ini, dikembangkan bersama produsen perangkat keras seperti Qualcomm, MediaTek, dan Samsung, menjadi lompatan besar dalam menghadirkan AI canggih tanpa perlu konektivitas cloud.
Google Luncurkan Gemma 3n: AI Multimodal Andal untuk Perangkat Mobile

Google secara resmi meluncurkan Gemma 3n, model AI multimodal terbuka terbaru yang dirancang khusus untuk perangkat mobile dan edge. Peluncuran ini menandai tonggak penting dalam membawa kemampuan AI canggih langsung ke perangkat konsumen tanpa memerlukan pemrosesan cloud.

Gemma 3n hadir dalam dua ukuran berdasarkan parameter efektif: E2B dan E4B. Meskipun jumlah parameter mentahnya masing-masing 5B dan 8B, inovasi arsitektur memungkinkan model ini berjalan dengan kebutuhan memori yang setara dengan model tradisional 2B dan 4B, yakni hanya membutuhkan 2GB (E2B) dan 3GB (E4B) memori. Efisiensi ini dicapai melalui sejumlah inovasi teknis, termasuk arsitektur MatFormer dan Per-Layer Embeddings.

Model ini benar-benar multimodal secara desain, mendukung input gambar, audio, video, dan teks secara native sekaligus menghasilkan output teks. Kemampuan audio yang diperluas memungkinkan pengenalan ucapan otomatis (transkripsi) dan terjemahan dari suara ke teks dengan kualitas tinggi. Selain itu, model ini menerima input antar-moda secara berurutan, sehingga mampu memahami interaksi multimodal yang kompleks.

Untuk pemrosesan visual, Gemma 3n dilengkapi vision encoder yang sangat efisien, MobileNet-V5-300M, yang memberikan performa terbaik untuk tugas multimodal di perangkat edge. Encoder ini mendukung berbagai resolusi input (256x256, 512x512, dan 768x768 piksel), unggul dalam berbagai tugas pemahaman gambar dan video, serta mampu memproses hingga 60 frame per detik di Google Pixel.

Versi E4B meraih skor LMArena di atas 1300, menjadikannya model pertama di bawah 10 miliar parameter yang mencapai tolok ukur ini. Gemma 3n menawarkan peningkatan kualitas dalam aspek multibahasa, mendukung 140 bahasa untuk pemahaman teks dan multimodal dalam 35 bahasa, serta peningkatan kemampuan matematika, pemrograman, dan penalaran.

Privasi menjadi fitur utama, karena eksekusi lokal memungkinkan fitur yang menjaga privasi pengguna dan tetap berfungsi andal meski tanpa koneksi internet. Model ini dikembangkan melalui kolaborasi erat dengan pemimpin perangkat keras mobile seperti Qualcomm Technologies, MediaTek, dan bisnis System LSI Samsung, serta dioptimalkan untuk AI multimodal super cepat, menghadirkan pengalaman personal dan privat langsung di perangkat.

Peluncuran penuh ini mengikuti pratinjau di Google I/O pada Mei 2025, dengan model yang kini tersedia melalui berbagai framework populer seperti Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama, dan MLX. Peluncuran komprehensif ini memberdayakan pengembang untuk membangun generasi baru aplikasi cerdas di perangkat yang mampu memahami dan merespons dunia di sekitar mereka.

Source:

Latest News