DAPO: ओपन-सोर्स में क्रांतिकारी बदलाव, AI रीजनिंग में नई क्रांति

ByteDance और Tsinghua University के शोधकर्ताओं ने DAPO नामक एक पूर्णतः ओपन-सोर्स रिइन्फोर्समेंट लर्निंग सिस्टम जारी किया है, जो गणितीय रीजनिंग में अत्याधुनिक क्षमताएँ हासिल करता है। यह सिस्टम पहले के मॉडलों की तुलना में 50% कम ट्रेनिंग स्टेप्स में बेहतर प्रदर्शन करता है और पहले छुपे हुए तकनीकी विवरणों को व्यापक AI समुदाय के लिए सुलभ बनाता है। यह उपलब्धि उन्नत AI रीजनिंग सिस्टम्स में पारदर्शिता की कमी को दूर करती है, जिससे नवाचार और पुनरुत्पादन की संभावनाएँ बढ़ती हैं।

ओपन-सोर्स आर्टिफिशियल इंटेलिजेंस के क्षेत्र में एक महत्वपूर्ण प्रगति के तहत, ByteDance और Tsinghua University के शोधकर्ताओं ने DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization) नामक एक क्रांतिकारी रिइन्फोर्समेंट लर्निंग सिस्टम पेश किया है, जो असाधारण रीजनिंग क्षमताओं के साथ-साथ पारदर्शिता और सुलभता को प्राथमिकता देता है।

DAPO, AI समुदाय की उस चुनौती का सीधा उत्तर है जिसमें OpenAI और DeepSeek जैसी प्रमुख कंपनियों द्वारा तकनीकी विवरण छुपाने के कारण अत्याधुनिक रिइन्फोर्समेंट लर्निंग परिणामों को दोहराना मुश्किल हो जाता है। रिइन्फोर्समेंट लर्निंग अब बड़े भाषा मॉडल्स (LLMs) को जटिल कार्यों के लिए आवश्यक बेहतर रीजनिंग क्षमताएँ देने के लिए केंद्रीय भूमिका निभा रही है। हालांकि, शोध समुदाय को प्रमुख कंपनियों द्वारा ट्रेनिंग के मुख्य विवरणों का पूरा खुलासा न करने के कारण अत्याधुनिक RL तकनीकों को दोहराने में काफी चुनौतियों का सामना करना पड़ता है। इस अपारदर्शिता ने व्यापक वैज्ञानिक प्रयासों और सहयोगी अनुसंधान की प्रगति को सीमित किया है।

यह सिस्टम Qwen2.5-32B बेस मॉडल का उपयोग करते हुए चुनौतीपूर्ण AIME 2024 गणित प्रतियोगिता में 50 अंक प्राप्त करता है। जहाँ पूर्व के कार्यों में ट्रेनिंग विवरण छुपाए जाते थे, वहीं DAPO चार प्रमुख तकनीकों को प्रस्तुत करता है, जो बड़े पैमाने पर LLM रिइन्फोर्समेंट लर्निंग को सफल बनाती हैं। इसके अतिरिक्त, शोधकर्ताओं ने अपना ट्रेनिंग कोड (verl फ्रेमवर्क पर आधारित) और एक सावधानीपूर्वक तैयार किया गया व प्रोसेस्ड डाटासेट भी ओपन-सोर्स किया है।

DAPO की सबसे खास बात इसकी दक्षता है। यह DeepSeek-R1-Zero-Qwen-32B जैसे पूर्व के अत्याधुनिक मॉडल्स की तुलना में केवल 50% ट्रेनिंग स्टेप्स में ही बेहतर प्रदर्शन करता है। यह दक्षता चार मुख्य नवाचारों से आती है: पहला, "Clip-Higher", एंट्रॉपी कोलैप्स की समस्या को हल करता है, जिसमें मॉडल जल्दी ही सीमित अन्वेषण पैटर्न में फंस जाते हैं। पॉलिसी अपडेट्स में क्लिपिंग अनुपात को सावधानीपूर्वक प्रबंधित कर, यह तकनीक मॉडल आउटपुट्स में विविधता को बढ़ावा देती है। "Dynamic Sampling" ट्रेनिंग की अक्षमताओं को दूर करता है, क्योंकि यह सैंपल्स को उनकी उपयोगिता के आधार पर डायनामिक रूप से छाँटता है, जिससे अधिक सुसंगत ग्रेडिएंट सिग्नल सुनिश्चित होता है। "Token-level Policy Gradient Loss" एक परिष्कृत लॉस कैलकुलेशन विधि है, जो सैंपल-स्तर के बजाय टोकन-स्तर पर समायोजन पर जोर देती है, ताकि विभिन्न लंबाई के रीजनिंग अनुक्रमों को बेहतर ढंग से समायोजित किया जा सके। अंत में, "Overlong Reward Shaping" अत्यधिक लंबे उत्तरों के लिए नियंत्रित दंड पेश करता है, जिससे मॉडल्स को संक्षिप्त और कुशल रीजनिंग के लिए प्रेरित किया जाता है।

DAPO की रिलीज़ ऐसे समय में आई है जब ओपन-सोर्स रिइन्फोर्समेंट लर्निंग में कई बड़ी उपलब्धियाँ सामने आ रही हैं। एक अन्य उल्लेखनीय प्रगति है MiroMind-M1, जो डाटासेट्स, मॉडल्स, ट्रेनिंग कोड और मूल्यांकन स्क्रिप्ट्स को समेटे हुए एक पूर्णतः ओपन-सोर्स पाइपलाइन है और Qwen-2.5 मॉडल इकोसिस्टम में पारदर्शिता और अत्याधुनिक गणितीय रीजनिंग के नए मानक स्थापित करती है। MiroMind-M1 मजबूत Qwen-2.5 बैकबोन पर आधारित है, जिसमें गणितीय रीजनिंग के लिए विशेष रूप से सुधार किए गए हैं।

इन विकासों का उद्योग पर व्यापक प्रभाव पड़ रहा है, जहाँ रिइन्फोर्समेंट लर्निंग सेक्टर का मूल्य 2025 में $122+ बिलियन आँका गया है। इसके अनुप्रयोगों में रोबोटिक्स, स्वायत्त वाहन, सप्लाई चेन ऑप्टिमाइजेशन, स्वास्थ्य सेवा और गेमिंग शामिल हैं, और जैसे-जैसे तकनीक परिपक्व हो रही है, इसके उपयोग के क्षेत्र भी बढ़ रहे हैं।

पहले से अप्राप्य कार्यप्रणालियों को पूरी तरह पारदर्शी बनाकर, DAPO और इसी तरह की ओपन-सोर्स पहलों ने उन्नत AI क्षमताओं का लोकतंत्रीकरण कर दिया है, जिससे शोधकर्ता, स्टार्टअप्स और स्थापित कंपनियाँ इन नवाचारों पर बिना किसी स्वामित्व संबंधी बाधाओं के आगे काम कर सकती हैं।

Source:

DAPO: ओपन-सोर्स में क्रांतिकारी बदलाव, AI रीजनिंग में नई क्रांति

Latest News

GitHub Copilot ने पार किया 2 करोड़ यूजर्स का आंकड़ा, डेवलपर वर्कफ़्लो में ला रहा है क्रांतिकारी बदलाव

Google का Imagen 4 Ultra AI इमेज जेनरेशन रैंकिंग में तीसरे स्थान पर पहुँचा

मस्क की xAI ने वीडियो एआई और वर्चुअल साथी के साथ Grok का विस्तार किया

मूनवैली का फिजिक्स-ड्रिवन एआई स्केच को सिनेमाई हकीकत में बदलता है

Manus ने समानांतर अनुसंधान कार्यों के लिए 100-एजेंट AI स्वार्म लॉन्च किया

एआई क्रांति से बदल रहा है रियल एस्टेट: 40 अरब डॉलर का उद्योग परिवर्तन

मेटा ने Llama 4-पावर्ड असिस्टेंट के साथ एआई इंटरैक्शन में क्रांति लाई

Xiaomi ने स्मार्ट होम और कारों के लिए अगली पीढ़ी का AI वॉयस मॉडल पेश किया

माइक्रोसॉफ्ट ने कार्यस्थल उत्पादकता संकट से निपटने के लिए एआई एजेंट्स पेश किए

प्रतिस्पर्धा के बदलते परिदृश्य में OpenAI का ओपन-सोर्स की ओर रुख

DAPO: ओपन-सोर्स में क्रांतिकारी बदलाव, AI रीजनिंग में नई क्रांति

Related Articles

GitHub Copilot ने पार किया 2 करोड़ यूजर्स का आंकड़ा, डेवलपर वर्कफ़्लो में ला रहा है क्रांतिकारी बदलाव

मस्क की xAI ने वीडियो एआई और वर्चुअल साथी के साथ Grok का विस्तार किया

Manus ने समानांतर अनुसंधान कार्यों के लिए 100-एजेंट AI स्वार्म लॉन्च किया

एआई क्रांति से बदल रहा है रियल एस्टेट: 40 अरब डॉलर का उद्योग परिवर्तन

Xiaomi ने स्मार्ट होम और कारों के लिए अगली पीढ़ी का AI वॉयस मॉडल पेश किया

Latest News

GitHub Copilot ने पार किया 2 करोड़ यूजर्स का आंकड़ा, डेवलपर वर्कफ़्लो में ला रहा है क्रांतिकारी बदलाव

Google का Imagen 4 Ultra AI इमेज जेनरेशन रैंकिंग में तीसरे स्थान पर पहुँचा

मस्क की xAI ने वीडियो एआई और वर्चुअल साथी के साथ Grok का विस्तार किया

मूनवैली का फिजिक्स-ड्रिवन एआई स्केच को सिनेमाई हकीकत में बदलता है

Manus ने समानांतर अनुसंधान कार्यों के लिए 100-एजेंट AI स्वार्म लॉन्च किया

एआई क्रांति से बदल रहा है रियल एस्टेट: 40 अरब डॉलर का उद्योग परिवर्तन

मेटा ने Llama 4-पावर्ड असिस्टेंट के साथ एआई इंटरैक्शन में क्रांति लाई

Xiaomi ने स्मार्ट होम और कारों के लिए अगली पीढ़ी का AI वॉयस मॉडल पेश किया

माइक्रोसॉफ्ट ने कार्यस्थल उत्पादकता संकट से निपटने के लिए एआई एजेंट्स पेश किए

प्रतिस्पर्धा के बदलते परिदृश्य में OpenAI का ओपन-सोर्स की ओर रुख