DAPO: إنجاز مفتوح المصدر يُحدث ثورة في قدرات الاستدلال للذكاء الاصطناعي

أصدر باحثون من ByteDance وجامعة تسينغهوا نظام DAPO، وهو نظام تعلم تعزيز مفتوح المصدر بالكامل يحقق قدرات استدلال رياضية متقدمة. يتفوق النظام على النماذج السابقة مع استخدام نصف عدد خطوات التدريب فقط، كما يتيح تفاصيل تقنية كانت مخفية سابقًا أمام مجتمع الذكاء الاصطناعي الأوسع. هذا الإنجاز يعالج فجوة الشفافية في أنظمة الاستدلال المتقدمة، مما يمكّن من الابتكار والتكرار على نطاق أوسع.

في تقدم بارز لمجال الذكاء الاصطناعي مفتوح المصدر، كشف باحثون من ByteDance وجامعة تسينغهوا عن نظام DAPO (تحسين سياسة القص المنفصل والتجميع الديناميكي)، وهو نظام تعلم تعزيز ثوري يحقق قدرات استدلال استثنائية مع التركيز على الشفافية وسهولة الوصول.

يمثل DAPO استجابة مباشرة لمعاناة مجتمع الذكاء الاصطناعي في إعادة إنتاج نتائج التعلم التعزيزي المتقدمة بسبب إخفاء التفاصيل التقنية من قبل شركات كبرى مثل OpenAI وDeepSeek. لقد أصبح التعلم التعزيزي محورياً في تطوير نماذج اللغة الضخمة (LLMs)، حيث يمنحها قدرات استدلالية محسّنة ضرورية للمهام المعقدة. ومع ذلك، يواجه الباحثون تحديات كبيرة في إعادة إنتاج تقنيات التعلم التعزيزي المتقدمة بسبب عدم الكشف الكامل عن تفاصيل التدريب الأساسية من قبل اللاعبين الرئيسيين في الصناعة، مما حد من تقدم الجهود العلمية والتعاون البحثي.

يحقق النظام 50 نقطة في مسابقة AIME 2024 الرياضية الصعبة باستخدام نموذج Qwen2.5-32B الأساسي. وعلى عكس الأعمال السابقة التي كانت تحجب تفاصيل التدريب، يقدم DAPO أربع تقنيات رئيسية تجعل التعلم التعزيزي على نطاق واسع لنماذج اللغة الضخمة ناجحًا. بالإضافة إلى ذلك، قام الباحثون بإتاحة كود التدريب الخاص بهم، المبني على إطار verl، مع مجموعة بيانات منتقاة ومعالجة بعناية.

ما يجعل DAPO مثيرًا للإعجاب بشكل خاص هو كفاءته العالية. فهو يتفوق على النموذج السابق DeepSeek-R1-Zero-Qwen-32B مع استخدام 50% فقط من خطوات التدريب. وتعود هذه الكفاءة إلى أربع ابتكارات أساسية: الأولى، "Clip-Higher"، تعالج مشكلة انهيار العشوائية، وهي حالة تستقر فيها النماذج مبكرًا على أنماط استكشاف محدودة. من خلال إدارة نسبة القص في تحديثات السياسة، تشجع هذه التقنية على تنوع أكبر في مخرجات النموذج. أما "Dynamic Sampling"، فتواجه عدم الكفاءة في التدريب عبر تصفية العينات ديناميكيًا بناءً على فائدتها، مما يضمن إشارة تدرج أكثر اتساقًا. وتقدم "Token-level Policy Gradient Loss" طريقة محسّنة لحساب الخسارة، مع التركيز على تعديلات على مستوى الرمز بدلاً من مستوى العينة، لتناسب بشكل أفضل أطوال تسلسلات الاستدلال المختلفة. وأخيرًا، تقدم "Overlong Reward Shaping" عقوبة مضبوطة للإجابات الطويلة بشكل مفرط، لتوجيه النماذج بلطف نحو استدلال أكثر إيجازًا وكفاءة.

يأتي إصدار DAPO في ظل موجة من الإنجازات مفتوحة المصدر في مجال التعلم التعزيزي. ومن بين التطورات البارزة الأخرى MiroMind-M1، وهو خط إنتاج مفتوح المصدر بالكامل يشمل مجموعات البيانات والنماذج وكود التدريب وأدوات التقييم، ويضع معايير جديدة للانفتاح وقدرات الاستدلال الرياضي المتقدمة ضمن منظومة نموذج Qwen-2.5. تم بناء MiroMind-M1 على أساس Qwen-2.5 القوي، مع تحسينات موجهة خصيصًا للاستدلال الرياضي.

تأثير هذه التطورات على الصناعة كبير، حيث يُقدّر قطاع التعلم التعزيزي بأكثر من 122 مليار دولار في عام 2025. وتشمل تطبيقاته الروبوتات، والمركبات ذاتية القيادة، وتحسين سلاسل الإمداد، والرعاية الصحية، والألعاب، مع توسع حالات الاستخدام مع نضوج التقنية.

من خلال جعل المنهجيات التي كانت غير متاحة سابقًا شفافة بالكامل، يساهم DAPO والمبادرات المفتوحة المصدر المماثلة في ديمقراطية قدرات الذكاء الاصطناعي المتقدمة، مما يمكّن الباحثين والشركات الناشئة والمؤسسات من البناء على هذه الابتكارات دون قيود الأنظمة الاحتكارية.

Source:

DAPO: إنجاز مفتوح المصدر يُحدث ثورة في قدرات الاستدلال للذكاء الاصطناعي

Latest News

GitHub Copilot يصل إلى 20 مليون مستخدم ويحدث تحولًا في سير عمل المطورين

نموذج Imagen 4 Ultra من جوجل يرتقي إلى المركز الثالث في تصنيفات توليد الصور بالذكاء الاصطناعي

شركة xAI التابعة لإيلون ماسك توسع قدرات Grok بإضافة الذكاء الاصطناعي للفيديو ورفقاء افتراضيين

الذكاء الاصطناعي المدفوع بالفيزياء من Moonvalley يحول الرسومات إلى واقع سينمائي

مانوس تطلق سربًا من 100 وكيل ذكاء اصطناعي للمهام البحثية المتوازية

ثورة الذكاء الاصطناعي تعيد تشكيل قطاع العقارات: تحول صناعة بقيمة 40 مليار دولار

ميتا تُحدث ثورة في التفاعل مع الذكاء الاصطناعي بمساعدها المدعوم بـ Llama 4

شاومي تكشف عن نموذج صوتي ذكي جديد للذكاء الاصطناعي للمنازل والسيارات الذكية

مايكروسوفت تكشف عن وكلاء ذكاء اصطناعي لمواجهة أزمة الإنتاجية في أماكن العمل

أوبن إيه آي تتجه نحو المصدر المفتوح مع تغير مشهد الذكاء الاصطناعي

DAPO: إنجاز مفتوح المصدر يُحدث ثورة في قدرات الاستدلال للذكاء الاصطناعي

Related Articles

GitHub Copilot يصل إلى 20 مليون مستخدم ويحدث تحولًا في سير عمل المطورين

شركة xAI التابعة لإيلون ماسك توسع قدرات Grok بإضافة الذكاء الاصطناعي للفيديو ورفقاء افتراضيين

مانوس تطلق سربًا من 100 وكيل ذكاء اصطناعي للمهام البحثية المتوازية

ثورة الذكاء الاصطناعي تعيد تشكيل قطاع العقارات: تحول صناعة بقيمة 40 مليار دولار

شاومي تكشف عن نموذج صوتي ذكي جديد للذكاء الاصطناعي للمنازل والسيارات الذكية

Latest News

GitHub Copilot يصل إلى 20 مليون مستخدم ويحدث تحولًا في سير عمل المطورين

نموذج Imagen 4 Ultra من جوجل يرتقي إلى المركز الثالث في تصنيفات توليد الصور بالذكاء الاصطناعي

شركة xAI التابعة لإيلون ماسك توسع قدرات Grok بإضافة الذكاء الاصطناعي للفيديو ورفقاء افتراضيين

الذكاء الاصطناعي المدفوع بالفيزياء من Moonvalley يحول الرسومات إلى واقع سينمائي

مانوس تطلق سربًا من 100 وكيل ذكاء اصطناعي للمهام البحثية المتوازية

ثورة الذكاء الاصطناعي تعيد تشكيل قطاع العقارات: تحول صناعة بقيمة 40 مليار دولار

ميتا تُحدث ثورة في التفاعل مع الذكاء الاصطناعي بمساعدها المدعوم بـ Llama 4

شاومي تكشف عن نموذج صوتي ذكي جديد للذكاء الاصطناعي للمنازل والسيارات الذكية

مايكروسوفت تكشف عن وكلاء ذكاء اصطناعي لمواجهة أزمة الإنتاجية في أماكن العمل

أوبن إيه آي تتجه نحو المصدر المفتوح مع تغير مشهد الذكاء الاصطناعي