في تقدم بارز لمجال الذكاء الاصطناعي مفتوح المصدر، كشف باحثون من ByteDance وجامعة تسينغهوا عن نظام DAPO (تحسين سياسة القص المنفصل والتجميع الديناميكي)، وهو نظام تعلم تعزيز ثوري يحقق قدرات استدلال استثنائية مع التركيز على الشفافية وسهولة الوصول.
يمثل DAPO استجابة مباشرة لمعاناة مجتمع الذكاء الاصطناعي في إعادة إنتاج نتائج التعلم التعزيزي المتقدمة بسبب إخفاء التفاصيل التقنية من قبل شركات كبرى مثل OpenAI وDeepSeek. لقد أصبح التعلم التعزيزي محورياً في تطوير نماذج اللغة الضخمة (LLMs)، حيث يمنحها قدرات استدلالية محسّنة ضرورية للمهام المعقدة. ومع ذلك، يواجه الباحثون تحديات كبيرة في إعادة إنتاج تقنيات التعلم التعزيزي المتقدمة بسبب عدم الكشف الكامل عن تفاصيل التدريب الأساسية من قبل اللاعبين الرئيسيين في الصناعة، مما حد من تقدم الجهود العلمية والتعاون البحثي.
يحقق النظام 50 نقطة في مسابقة AIME 2024 الرياضية الصعبة باستخدام نموذج Qwen2.5-32B الأساسي. وعلى عكس الأعمال السابقة التي كانت تحجب تفاصيل التدريب، يقدم DAPO أربع تقنيات رئيسية تجعل التعلم التعزيزي على نطاق واسع لنماذج اللغة الضخمة ناجحًا. بالإضافة إلى ذلك، قام الباحثون بإتاحة كود التدريب الخاص بهم، المبني على إطار verl، مع مجموعة بيانات منتقاة ومعالجة بعناية.
ما يجعل DAPO مثيرًا للإعجاب بشكل خاص هو كفاءته العالية. فهو يتفوق على النموذج السابق DeepSeek-R1-Zero-Qwen-32B مع استخدام 50% فقط من خطوات التدريب. وتعود هذه الكفاءة إلى أربع ابتكارات أساسية: الأولى، "Clip-Higher"، تعالج مشكلة انهيار العشوائية، وهي حالة تستقر فيها النماذج مبكرًا على أنماط استكشاف محدودة. من خلال إدارة نسبة القص في تحديثات السياسة، تشجع هذه التقنية على تنوع أكبر في مخرجات النموذج. أما "Dynamic Sampling"، فتواجه عدم الكفاءة في التدريب عبر تصفية العينات ديناميكيًا بناءً على فائدتها، مما يضمن إشارة تدرج أكثر اتساقًا. وتقدم "Token-level Policy Gradient Loss" طريقة محسّنة لحساب الخسارة، مع التركيز على تعديلات على مستوى الرمز بدلاً من مستوى العينة، لتناسب بشكل أفضل أطوال تسلسلات الاستدلال المختلفة. وأخيرًا، تقدم "Overlong Reward Shaping" عقوبة مضبوطة للإجابات الطويلة بشكل مفرط، لتوجيه النماذج بلطف نحو استدلال أكثر إيجازًا وكفاءة.
يأتي إصدار DAPO في ظل موجة من الإنجازات مفتوحة المصدر في مجال التعلم التعزيزي. ومن بين التطورات البارزة الأخرى MiroMind-M1، وهو خط إنتاج مفتوح المصدر بالكامل يشمل مجموعات البيانات والنماذج وكود التدريب وأدوات التقييم، ويضع معايير جديدة للانفتاح وقدرات الاستدلال الرياضي المتقدمة ضمن منظومة نموذج Qwen-2.5. تم بناء MiroMind-M1 على أساس Qwen-2.5 القوي، مع تحسينات موجهة خصيصًا للاستدلال الرياضي.
تأثير هذه التطورات على الصناعة كبير، حيث يُقدّر قطاع التعلم التعزيزي بأكثر من 122 مليار دولار في عام 2025. وتشمل تطبيقاته الروبوتات، والمركبات ذاتية القيادة، وتحسين سلاسل الإمداد، والرعاية الصحية، والألعاب، مع توسع حالات الاستخدام مع نضوج التقنية.
من خلال جعل المنهجيات التي كانت غير متاحة سابقًا شفافة بالكامل، يساهم DAPO والمبادرات المفتوحة المصدر المماثلة في ديمقراطية قدرات الذكاء الاصطناعي المتقدمة، مما يمكّن الباحثين والشركات الناشئة والمؤسسات من البناء على هذه الابتكارات دون قيود الأنظمة الاحتكارية.