menu
close

جوجل تكشف عن Gemma 3n: ذكاء اصطناعي متعدد الوسائط قوي للأجهزة المحمولة

أعلنت جوجل عن إطلاق Gemma 3n، نموذج ذكاء اصطناعي متعدد الوسائط ثوري مصمم ليعمل بكفاءة على أجهزة المستهلكين بذاكرة لا تتجاوز 2 جيجابايت. يمكن للنموذج معالجة الصوت والنصوص والصور والفيديو أثناء عمله محلياً على الهواتف والأجهزة اللوحية وأجهزة الكمبيوتر المحمولة. يمثل هذا التصميم الذي يركز على الأجهزة المحمولة، والذي تم تطويره بالتعاون مع شركات تصنيع المعالجات مثل كوالكوم وميدياتك وسامسونج، نقلة نوعية في جعل الذكاء الاصطناعي القوي متاحاً دون الحاجة للاتصال بالسحابة.
جوجل تكشف عن Gemma 3n: ذكاء اصطناعي متعدد الوسائط قوي للأجهزة المحمولة

أطلقت جوجل رسمياً Gemma 3n، أحدث نموذج ذكاء اصطناعي مفتوح متعدد الوسائط تم تطويره خصيصاً للأجهزة المحمولة وأجهزة الحافة. يمثل هذا الإصدار خطوة مهمة نحو توفير إمكانيات الذكاء الاصطناعي المتقدمة مباشرة على أجهزة المستهلكين دون الحاجة للمعالجة السحابية.

يتوفر Gemma 3n بحجمين بناءً على عدد المعاملات الفعّالة: E2B و E4B. بينما يبلغ عدد المعاملات الخام للنموذجين 5 مليارات و8 مليارات على التوالي، إلا أن الابتكارات المعمارية تتيح لهما العمل باستهلاك ذاكرة مماثل للنماذج التقليدية ذات 2 مليار و4 مليار معاملة، حيث يمكن تشغيلهما بذاكرة تبدأ من 2 جيجابايت (E2B) و3 جيجابايت (E4B). تم تحقيق هذه الكفاءة من خلال عدة ابتكارات تقنية، بما في ذلك بنية MatFormer وتضمينات لكل طبقة.

النموذج متعدد الوسائط بشكل حقيقي، حيث يدعم بشكل أصلي إدخال الصور والصوت والفيديو والنصوص، مع إنتاج مخرجات نصية. كما أن قدراته الصوتية المتقدمة تتيح التعرف التلقائي عالي الجودة على الكلام (النسخ) والترجمة من الصوت إلى النص. بالإضافة إلى ذلك، يقبل النموذج مدخلات متداخلة عبر الوسائط المختلفة، ما يمكّنه من فهم التفاعلات متعددة الوسائط المعقدة.

في ما يخص معالجة الصور، يتميز Gemma 3n بوجود مشفر رؤية عالي الكفاءة MobileNet-V5-300M، والذي يوفر أداءً رائداً في المهام متعددة الوسائط على أجهزة الحافة. يدعم هذا المشفر بشكل أصلي عدة دقات إدخال (256×256، 512×512، و768×768 بكسل)، ويتفوق في مجموعة واسعة من مهام فهم الصور والفيديو، ويمكنه معالجة حتى 60 إطاراً في الثانية على جهاز Google Pixel.

يحقق إصدار E4B درجة تزيد عن 1300 في اختبار LMArena، ليصبح بذلك أول نموذج يقل عدد معاملاته عن 10 مليارات يحقق هذا الإنجاز. كما يوفر Gemma 3n تحسينات في الجودة عبر تعدد اللغات، حيث يدعم 140 لغة في النصوص وفهم متعدد الوسائط لـ 35 لغة، بالإضافة إلى قدرات محسّنة في الرياضيات والبرمجة والاستدلال.

الخصوصية تعتبر من الميزات الرئيسية، حيث تتيح المعالجة المحلية ميزات تحترم خصوصية المستخدم وتعمل بشكل موثوق حتى دون اتصال بالإنترنت. تم تطوير النموذج بالتعاون الوثيق مع رواد صناعة المعالجات للأجهزة المحمولة مثل Qualcomm Technologies وMediaTek وقسم System LSI في سامسونج، وتم تحسينه ليقدم ذكاءً اصطناعياً متعدد الوسائط فائق السرعة، ما يتيح تجارب شخصية وخاصة بحق مباشرة على الأجهزة.

يأتي هذا الإصدار الكامل بعد معاينة أولية في مؤتمر Google I/O في مايو 2025، وأصبح النموذج متاحاً الآن عبر أطر العمل الشهيرة مثل Hugging Face Transformers و llama.cpp و Google AI Edge و Ollama و MLX. يمكّن هذا الإطلاق الشامل المطورين من بناء جيل جديد من التطبيقات الذكية على الأجهزة القادرة على فهم العالم من حولها والتفاعل معه.

Source:

Latest News