Google ने आधिकारिक तौर पर Gemma 3n लॉन्च किया है, जो उसका नवीनतम ओपन मल्टीमॉडल एआई मॉडल है, जिसे खासतौर पर मोबाइल और एज डिवाइसों के लिए इंजीनियर किया गया है। यह रिलीज़ उपभोक्ता हार्डवेयर पर एडवांस्ड एआई क्षमताएं सीधे लाने की दिशा में एक महत्वपूर्ण मील का पत्थर है, जिसमें क्लाउड प्रोसेसिंग की आवश्यकता नहीं होती।
Gemma 3n दो आकारों में उपलब्ध है, जो प्रभावी पैरामीटर्स पर आधारित हैं: E2B और E4B। जबकि इनके कच्चे पैरामीटर क्रमशः 5B और 8B हैं, आर्किटेक्चरल इनोवेशन के कारण ये पारंपरिक 2B और 4B मॉडल्स के बराबर मेमोरी में चल सकते हैं, यानी E2B सिर्फ 2GB और E4B सिर्फ 3GB मेमोरी में ऑपरेट कर सकता है। यह दक्षता कई तकनीकी नवाचारों, जैसे MatFormer आर्किटेक्चर और Per-Layer Embeddings के जरिए हासिल की गई है।
मॉडल को मूल रूप से मल्टीमॉडल डिज़ाइन किया गया है, जो इमेज, ऑडियो, वीडियो और टेक्स्ट इनपुट्स को सपोर्ट करता है और टेक्स्ट आउटपुट जेनरेट करता है। इसकी विस्तारित ऑडियो क्षमताएं उच्च गुणवत्ता वाली ऑटोमैटिक स्पीच रिकग्निशन (ट्रांसक्रिप्शन) और स्पीच-टू-टेक्स्ट ट्रांसलेशन को सक्षम बनाती हैं। इसके अलावा, मॉडल विभिन्न मोडैलिटी में इंटरलीव्ड इनपुट्स स्वीकार करता है, जिससे जटिल मल्टीमॉडल इंटरैक्शन को समझना संभव होता है।
विजुअल प्रोसेसिंग के लिए, Gemma 3n में एक अत्यधिक कुशल विज़न एन्कोडर, MobileNet-V5-300M है, जो एज डिवाइसों पर मल्टीमॉडल टास्क के लिए अत्याधुनिक प्रदर्शन देता है। यह एन्कोडर कई इनपुट रेज़ोल्यूशन (256x256, 512x512 और 768x768 पिक्सल) को मूल रूप से सपोर्ट करता है, इमेज और वीडियो समझने के कई कार्यों में उत्कृष्ट है, और Google Pixel पर 60 फ्रेम प्रति सेकंड तक प्रोसेस कर सकता है।
E4B वर्शन LMArena स्कोर में 1300 से अधिक हासिल करता है, जिससे यह 10 बिलियन पैरामीटर्स से कम का पहला मॉडल बन गया है जो इस बेंचमार्क तक पहुंचा है। Gemma 3n बहुभाषिकता में भी गुणवत्ता सुधार लाता है, जो टेक्स्ट के लिए 140 भाषाओं और मल्टीमॉडल समझ के लिए 35 भाषाओं को सपोर्ट करता है, साथ ही गणित, कोडिंग और रीजनिंग क्षमताओं में भी सुधार करता है।
प्राइवेसी इसकी एक प्रमुख विशेषता है, क्योंकि लोकल एक्जीक्यूशन से यूज़र प्राइवेसी का सम्मान करने वाली और बिना इंटरनेट कनेक्शन के भी विश्वसनीय रूप से काम करने वाली सुविधाएं संभव होती हैं। यह मॉडल Qualcomm Technologies, MediaTek और Samsung के System LSI बिजनेस जैसे मोबाइल हार्डवेयर लीडर्स के साथ करीबी सहयोग में बनाया गया है और तेज़, मल्टीमॉडल एआई के लिए ऑप्टिमाइज़ किया गया है, जिससे डिवाइस पर ही व्यक्तिगत और प्राइवेट अनुभव संभव होते हैं।
इसका पूरा रिलीज़ मई 2025 में Google I/O में प्रीव्यू के बाद हुआ है, और अब यह Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama और MLX जैसे लोकप्रिय फ्रेमवर्क्स के जरिए उपलब्ध है। यह व्यापक लॉन्च डेवलपर्स को एक नई पीढ़ी के इंटेलिजेंट, ऑन-डिवाइस एप्लिकेशन बनाने में सक्षम बनाता है, जो अपने आसपास की दुनिया को समझ और प्रतिक्रिया दे सकते हैं।