menu
close

DAPO: ओपन-सोर्स में क्रांतिकारी बदलाव, AI रीजनिंग में नई क्रांति

ByteDance और Tsinghua University के शोधकर्ताओं ने DAPO नामक एक पूर्णतः ओपन-सोर्स रिइन्फोर्समेंट लर्निंग सिस्टम जारी किया है, जो गणितीय रीजनिंग में अत्याधुनिक क्षमताएँ हासिल करता है। यह सिस्टम पहले के मॉडलों की तुलना में 50% कम ट्रेनिंग स्टेप्स में बेहतर प्रदर्शन करता है और पहले छुपे हुए तकनीकी विवरणों को व्यापक AI समुदाय के लिए सुलभ बनाता है। यह उपलब्धि उन्नत AI रीजनिंग सिस्टम्स में पारदर्शिता की कमी को दूर करती है, जिससे नवाचार और पुनरुत्पादन की संभावनाएँ बढ़ती हैं।
DAPO: ओपन-सोर्स में क्रांतिकारी बदलाव, AI रीजनिंग में नई क्रांति

ओपन-सोर्स आर्टिफिशियल इंटेलिजेंस के क्षेत्र में एक महत्वपूर्ण प्रगति के तहत, ByteDance और Tsinghua University के शोधकर्ताओं ने DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization) नामक एक क्रांतिकारी रिइन्फोर्समेंट लर्निंग सिस्टम पेश किया है, जो असाधारण रीजनिंग क्षमताओं के साथ-साथ पारदर्शिता और सुलभता को प्राथमिकता देता है।

DAPO, AI समुदाय की उस चुनौती का सीधा उत्तर है जिसमें OpenAI और DeepSeek जैसी प्रमुख कंपनियों द्वारा तकनीकी विवरण छुपाने के कारण अत्याधुनिक रिइन्फोर्समेंट लर्निंग परिणामों को दोहराना मुश्किल हो जाता है। रिइन्फोर्समेंट लर्निंग अब बड़े भाषा मॉडल्स (LLMs) को जटिल कार्यों के लिए आवश्यक बेहतर रीजनिंग क्षमताएँ देने के लिए केंद्रीय भूमिका निभा रही है। हालांकि, शोध समुदाय को प्रमुख कंपनियों द्वारा ट्रेनिंग के मुख्य विवरणों का पूरा खुलासा न करने के कारण अत्याधुनिक RL तकनीकों को दोहराने में काफी चुनौतियों का सामना करना पड़ता है। इस अपारदर्शिता ने व्यापक वैज्ञानिक प्रयासों और सहयोगी अनुसंधान की प्रगति को सीमित किया है।

यह सिस्टम Qwen2.5-32B बेस मॉडल का उपयोग करते हुए चुनौतीपूर्ण AIME 2024 गणित प्रतियोगिता में 50 अंक प्राप्त करता है। जहाँ पूर्व के कार्यों में ट्रेनिंग विवरण छुपाए जाते थे, वहीं DAPO चार प्रमुख तकनीकों को प्रस्तुत करता है, जो बड़े पैमाने पर LLM रिइन्फोर्समेंट लर्निंग को सफल बनाती हैं। इसके अतिरिक्त, शोधकर्ताओं ने अपना ट्रेनिंग कोड (verl फ्रेमवर्क पर आधारित) और एक सावधानीपूर्वक तैयार किया गया व प्रोसेस्ड डाटासेट भी ओपन-सोर्स किया है।

DAPO की सबसे खास बात इसकी दक्षता है। यह DeepSeek-R1-Zero-Qwen-32B जैसे पूर्व के अत्याधुनिक मॉडल्स की तुलना में केवल 50% ट्रेनिंग स्टेप्स में ही बेहतर प्रदर्शन करता है। यह दक्षता चार मुख्य नवाचारों से आती है: पहला, "Clip-Higher", एंट्रॉपी कोलैप्स की समस्या को हल करता है, जिसमें मॉडल जल्दी ही सीमित अन्वेषण पैटर्न में फंस जाते हैं। पॉलिसी अपडेट्स में क्लिपिंग अनुपात को सावधानीपूर्वक प्रबंधित कर, यह तकनीक मॉडल आउटपुट्स में विविधता को बढ़ावा देती है। "Dynamic Sampling" ट्रेनिंग की अक्षमताओं को दूर करता है, क्योंकि यह सैंपल्स को उनकी उपयोगिता के आधार पर डायनामिक रूप से छाँटता है, जिससे अधिक सुसंगत ग्रेडिएंट सिग्नल सुनिश्चित होता है। "Token-level Policy Gradient Loss" एक परिष्कृत लॉस कैलकुलेशन विधि है, जो सैंपल-स्तर के बजाय टोकन-स्तर पर समायोजन पर जोर देती है, ताकि विभिन्न लंबाई के रीजनिंग अनुक्रमों को बेहतर ढंग से समायोजित किया जा सके। अंत में, "Overlong Reward Shaping" अत्यधिक लंबे उत्तरों के लिए नियंत्रित दंड पेश करता है, जिससे मॉडल्स को संक्षिप्त और कुशल रीजनिंग के लिए प्रेरित किया जाता है।

DAPO की रिलीज़ ऐसे समय में आई है जब ओपन-सोर्स रिइन्फोर्समेंट लर्निंग में कई बड़ी उपलब्धियाँ सामने आ रही हैं। एक अन्य उल्लेखनीय प्रगति है MiroMind-M1, जो डाटासेट्स, मॉडल्स, ट्रेनिंग कोड और मूल्यांकन स्क्रिप्ट्स को समेटे हुए एक पूर्णतः ओपन-सोर्स पाइपलाइन है और Qwen-2.5 मॉडल इकोसिस्टम में पारदर्शिता और अत्याधुनिक गणितीय रीजनिंग के नए मानक स्थापित करती है। MiroMind-M1 मजबूत Qwen-2.5 बैकबोन पर आधारित है, जिसमें गणितीय रीजनिंग के लिए विशेष रूप से सुधार किए गए हैं।

इन विकासों का उद्योग पर व्यापक प्रभाव पड़ रहा है, जहाँ रिइन्फोर्समेंट लर्निंग सेक्टर का मूल्य 2025 में $122+ बिलियन आँका गया है। इसके अनुप्रयोगों में रोबोटिक्स, स्वायत्त वाहन, सप्लाई चेन ऑप्टिमाइजेशन, स्वास्थ्य सेवा और गेमिंग शामिल हैं, और जैसे-जैसे तकनीक परिपक्व हो रही है, इसके उपयोग के क्षेत्र भी बढ़ रहे हैं।

पहले से अप्राप्य कार्यप्रणालियों को पूरी तरह पारदर्शी बनाकर, DAPO और इसी तरह की ओपन-सोर्स पहलों ने उन्नत AI क्षमताओं का लोकतंत्रीकरण कर दिया है, जिससे शोधकर्ता, स्टार्टअप्स और स्थापित कंपनियाँ इन नवाचारों पर बिना किसी स्वामित्व संबंधी बाधाओं के आगे काम कर सकती हैं।

Source:

Latest News