أعلنت جوجل رسميًا عن إطلاق Gemma 3n، أحدث نماذج الذكاء الاصطناعي المفتوحة والمتعددة الوسائط، والمصممة خصيصًا للأجهزة المحمولة وأجهزة الحافة. يمثل هذا الإصدار خطوة فارقة في تقديم إمكانيات الذكاء الاصطناعي المتقدمة مباشرة على أجهزة المستخدمين دون الحاجة إلى معالجة سحابية.
يتوفر Gemma 3n بنسختين حسب عدد المعاملات الفعالة: E2B وE4B. وبينما يبلغ عدد المعاملات الخام لهما 5 مليارات و8 مليارات على التوالي، إلا أن الابتكارات المعمارية تتيح لهما العمل باستهلاك ذاكرة مماثل لنماذج 2 مليار و4 مليار تقليدية، حيث يعملان بذاكرة تبدأ من 2 جيجابايت (E2B) و3 جيجابايت (E4B) فقط. وقد تحقق هذا الأداء العالي بفضل عدة ابتكارات تقنية، منها معمارية MatFormer وPer-Layer Embeddings.
النموذج متعدد الوسائط بالفعل من حيث التصميم، حيث يدعم إدخال الصور والصوت والفيديو والنصوص بشكل أصلي، مع إنتاج مخرجات نصية. وتتيح قدراته الصوتية المتقدمة التعرف التلقائي عالي الجودة على الكلام (النسخ) والترجمة من الصوت إلى النص. كما يقبل النموذج إدخالات متداخلة عبر وسائط متعددة، ما يمكّنه من فهم التفاعلات المعقدة بين الوسائط.
ولمعالجة الصور والفيديو، يتميز Gemma 3n بوجود مشفر رؤية عالي الكفاءة MobileNet-V5-300M، والذي يوفر أداءً رائدًا في المهام متعددة الوسائط على أجهزة الحافة. يدعم هذا المشفر عدة دقات إدخال (256×256، 512×512، و768×768 بكسل)، ويتفوق في مجموعة واسعة من مهام فهم الصور والفيديو، وقادر على معالجة حتى 60 إطارًا في الثانية على أجهزة Google Pixel.
تصل نسخة E4B إلى درجة LMArena تتجاوز 1300، لتكون بذلك أول نموذج يقل عدد معاملاته عن 10 مليارات يحقق هذا الإنجاز. كما يقدم Gemma 3n تحسينات كبيرة في دعم اللغات المتعددة، حيث يدعم 140 لغة في النصوص وفهم متعدد الوسائط لـ 35 لغة، بالإضافة إلى قدرات محسنة في الرياضيات والبرمجة والاستدلال.
الخصوصية عنصر أساسي في Gemma 3n، حيث يتيح التنفيذ المحلي ميزات تحترم خصوصية المستخدم وتعمل بشكل موثوق حتى دون اتصال بالإنترنت. وقد تم تطوير النموذج بالتعاون الوثيق مع رواد صناعة العتاد المحمول مثل Qualcomm Technologies وMediaTek وقطاع System LSI من سامسونج، وتم تحسينه ليقدم ذكاءً اصطناعيًا متعدد الوسائط فائق السرعة، مما يوفر تجارب شخصية وخاصة حقيقية مباشرة على الأجهزة.
يأتي هذا الإصدار الكامل بعد معاينة أولية في مؤتمر Google I/O في مايو 2025، وأصبح النموذج متاحًا الآن عبر أطر عمل شهيرة مثل Hugging Face Transformers وllama.cpp وGoogle AI Edge وOllama وMLX. ويتيح هذا الإطلاق الشامل للمطورين بناء جيل جديد من التطبيقات الذكية على الأجهزة، القادرة على فهم العالم المحيط بها والتفاعل معه.