menu
close

DAPO: إنجاز مفتوح المصدر يُحدث ثورة في قدرات الاستدلال للذكاء الاصطناعي

أطلق باحثون من ByteDance وجامعة تسينغهوا نظام DAPO، وهو نظام تعلم معزز مفتوح المصدر بالكامل يحقق قدرات استدلال رياضي متقدمة. يتفوق النظام على النماذج السابقة مع استخدام نصف عدد خطوات التدريب فقط، كما يتيح تفاصيل تقنية كانت مخفية سابقاً أمام مجتمع الذكاء الاصطناعي الأوسع. يمثل هذا الإنجاز خطوة مهمة نحو سد فجوة الشفافية في أنظمة الاستدلال المتقدمة، ويفتح الباب أمام الابتكار وإمكانية إعادة إنتاج النتائج بشكل أوسع.
DAPO: إنجاز مفتوح المصدر يُحدث ثورة في قدرات الاستدلال للذكاء الاصطناعي

في تقدم بارز لمجال الذكاء الاصطناعي مفتوح المصدر، كشف باحثون من ByteDance وجامعة تسينغهوا عن نظام DAPO (تحسين سياسة القص المنفصل والتجميع الديناميكي)، وهو نظام تعلم معزز رائد يحقق قدرات استدلال استثنائية مع التركيز على الشفافية وسهولة الوصول.

يمثل DAPO استجابة مباشرة لتحديات مجتمع الذكاء الاصطناعي في إعادة إنتاج نتائج التعلم المعزز المتقدمة، وذلك بسبب إخفاء التفاصيل التقنية من قبل شركات كبرى مثل OpenAI وDeepSeek. لقد أصبح التعلم المعزز محورياً في تطوير النماذج اللغوية الضخمة (LLMs)، حيث يمنحها قدرات استدلالية متقدمة ضرورية للمهام المعقدة. إلا أن المجتمع البحثي يواجه صعوبات كبيرة في إعادة إنتاج تقنيات التعلم المعزز المتقدمة بسبب عدم الإفصاح الكامل عن تفاصيل التدريب الأساسية من قبل اللاعبين الرئيسيين في الصناعة، مما حد من تقدم الجهود العلمية والتعاون البحثي.

يحقق النظام 50 نقطة في مسابقة AIME 2024 الرياضية الصعبة باستخدام نموذج Qwen2.5-32B الأساسي. وعلى عكس الأعمال السابقة التي كانت تحجب تفاصيل التدريب، يقدم DAPO أربع تقنيات رئيسية تُمكن التعلم المعزز للنماذج اللغوية الضخمة على نطاق واسع. بالإضافة إلى ذلك، قام الباحثون بإتاحة كود التدريب الخاص بهم، المبني على إطار عمل verl، إلى جانب مجموعة بيانات مختارة ومعالجة بعناية.

ما يجعل DAPO مميزاً هو كفاءته العالية؛ إذ يتفوق على النموذج الرائد السابق DeepSeek-R1-Zero-Qwen-32B مع استخدام 50% فقط من خطوات التدريب. وتعود هذه الكفاءة إلى أربع ابتكارات أساسية: الأولى "Clip-Higher"، التي تعالج مشكلة انهيار التنوع (entropy collapse)، حيث تمكّن النماذج من الاستمرار في استكشاف خيارات متعددة بدلاً من التوقف المبكر عند أنماط محدودة. من خلال إدارة نسبة القص في تحديثات السياسة، تشجع هذه التقنية على تنوع أكبر في مخرجات النموذج. أما "التجميع الديناميكي" فيعالج عدم الكفاءة في التدريب عبر تصفية العينات ديناميكياً بناءً على فائدتها، ما يضمن إشارة تدرج أكثر اتساقاً. وتقدم تقنية "خسارة التدرج على مستوى الرمز" طريقة محسّنة لحساب الخسارة، حيث تركز على تعديلات على مستوى الرموز بدلاً من العينات، لاستيعاب اختلاف أطوال سلاسل الاستدلال. وأخيراً، تقدم تقنية "تشكيل المكافأة للإجابات الطويلة" عقوبة مدروسة للإجابات المفرطة في الطول، ما يوجه النماذج نحو استدلال أكثر إيجازاً وكفاءة.

يأتي إطلاق DAPO في ظل موجة من الإنجازات مفتوحة المصدر في مجال التعلم المعزز. ومن بين هذه الإنجازات نظام MiroMind-M1، وهو خط إنتاج مفتوح المصدر بالكامل يشمل مجموعات البيانات والنماذج وكود التدريب وأدوات التقييم، ويضع معايير جديدة للانفتاح وقدرات الاستدلال الرياضي المتقدمة ضمن منظومة Qwen-2.5. تم بناء MiroMind-M1 على بنية Qwen-2.5 القوية، مع تحسينات موجهة خصيصاً للاستدلال الرياضي.

ويُعد تأثير هذه التطورات على الصناعة كبيراً، حيث يُقدّر حجم قطاع التعلم المعزز بأكثر من 122 مليار دولار في عام 2025. وتشمل تطبيقاته الروبوتات، والمركبات ذاتية القيادة، وتحسين سلاسل الإمداد، والرعاية الصحية، والألعاب، مع توسع حالات الاستخدام مع نضوج التقنية.

من خلال إتاحة منهجيات كانت غير متاحة سابقاً بشكل كامل وشفاف، يساهم DAPO والمبادرات مفتوحة المصدر المشابهة في ديمقراطية قدرات الذكاء الاصطناعي المتقدمة، مما يمكّن الباحثين والشركات الناشئة والمؤسسات من البناء على هذه الابتكارات دون قيود الأنظمة الاحتكارية.

Source:

Latest News