திறந்த மூலக் கலைமயமான நுண்ணறிவில் ஒரு முக்கிய முன்னேற்றமாக, பைட் டான்ஸ் மற்றும் சிங்க்ஹுவா பல்கலைக்கழகத்தைச் சேர்ந்த ஆராய்ச்சியாளர்கள் DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization) எனும் புதிய கூட்டு வலிமை கற்றல் அமைப்பை அறிமுகப்படுத்தியுள்ளனர். இது மிகச் சிறந்த காரணீய திறன்களை அடைய மட்டுமல்லாமல், வெளிப்படைத்தன்மை மற்றும் அணுகலுக்கு முன்னுரிமை அளிக்கிறது.
DAPO, OpenAI மற்றும் DeepSeek போன்ற முன்னணி தொழில்நுட்ப நிறுவனங்கள் முக்கிய பயிற்சி விவரங்களை மறைப்பதால், கூட்டு வலிமை கற்றலில் முன்னணி முடிவுகளை மறுபடியும் உருவாக்குவதில் ஏஐ சமூகத்துக்கு ஏற்பட்ட சவால்களுக்கு நேரடி பதிலாக உருவாக்கப்பட்டுள்ளது. கூட்டு வலிமை கற்றல், பெரிய மொழி மாதிரிகளை (LLMs) மேம்படுத்துவதில் முக்கியப் பங்கு வகிக்கிறது. இது சிக்கலான பணிகளுக்கு தேவையான மேம்பட்ட காரணீய திறன்களை வழங்குகிறது. ஆனால், முக்கிய தொழில்நுட்ப நிறுவனங்கள் முக்கிய பயிற்சி விவரங்களை முழுமையாக பகிராததால், ஆராய்ச்சி சமூகத்திற்கு முன்னணி கூட்டு வலிமை கற்றல் நுட்பங்களை மறுபடியும் உருவாக்குவது கடினமாக உள்ளது. இந்த மறைவு, பரந்த அறிவியல் முயற்சிகள் மற்றும் கூட்டுறவு ஆராய்ச்சியின் முன்னேற்றத்தை கட்டுப்படுத்தியுள்ளது.
DAPO அமைப்பு, Qwen2.5-32B அடிப்படை மாதிரியை பயன்படுத்தி, சவாலான AIME 2024 கணிதப் போட்டியில் 50 புள்ளிகள் பெற்றுள்ளது. முந்தைய முயற்சிகள் பயிற்சி விவரங்களை மறைத்திருந்தாலும், DAPO பெரிய அளவிலான LLM கூட்டு வலிமை கற்றலில் வெற்றிகரமாக்கும் நான்கு முக்கிய நுட்பங்களை அறிமுகப்படுத்துகிறது. கூடுதலாக, ஆராய்ச்சியாளர்கள் தங்கள் பயிற்சி குறியீட்டை (verl framework-ல் உருவாக்கப்பட்டது) மற்றும் கவனமாகத் தேர்ந்தெடுக்கப்பட்ட, செயலாக்கப்பட்ட தரவுத்தொகுப்பையும் திறந்த மூலமாக வெளியிட்டுள்ளனர்.
DAPO-வை சிறப்பாக மாற்றுவது அதன் செயல்திறன். DAPO, DeepSeek-R1-Zero-Qwen-32B என்ற முந்தைய முன்னணி மாதிரியை விட சிறப்பாக செயல்படுகிறது, அதுவும் 50% குறைந்த பயிற்சி படிகள் மட்டுமே பயன்படுத்தி. இந்த செயல்திறன் நான்கு முக்கிய புதுமைகளால் ஏற்படுகிறது: முதல், "Clip-Higher" எனும் நுட்பம் entropy collapse எனும் சிக்கலை தீர்க்கிறது. இதில், மாதிரிகள் விரைவாக குறைந்த தேடல் முறைகளில் சிக்கிக்கொள்வதைத் தடுக்கும் வகையில், policy updates-ல் clipping ratio-வை கவனமாக நிர்வகிக்கிறது. இது மாதிரி வெளியீடுகளில் அதிக வகைமையை ஊக்குவிக்கிறது. "Dynamic Sampling" பயிற்சியில் செயலற்ற மாதிரிகளை தானாகவே வடிகட்டுவதன் மூலம் பயிற்சியின் செயல்திறனை அதிகரிக்கிறது, இதனால் நிலையான gradient signal கிடைக்கிறது. "Token-level Policy Gradient Loss" என்பது, மாதிரியின் நீள வேறுபாடுகளை சிறப்பாக கையாள, sample-ஆல் அல்லாமல் token-ஆல் loss-ஐ கணக்கிடும் நுட்பமாகும். கடைசியாக, "Overlong Reward Shaping" என்பது மிக நீளமான பதில்களுக்கு கட்டுப்படுத்தப்பட்ட தண்டனை வழங்கி, மாதிரிகளை சுருக்கமாகவும் செயல்திறனாகவும் பதிலளிக்க gently வழிநடத்துகிறது.
DAPO வெளியீடு, திறந்த மூலக் கூட்டு வலிமை கற்றலில் சமீபத்திய பல முன்னேற்றங்களுக்கிடையே வருகிறது. மற்றொரு குறிப்பிடத்தக்க முன்னேற்றம் MiroMind-M1 ஆகும், இது முழுமையாக திறந்த மூலப் பைப்லைன் ஆகும்; இதில் தரவுத்தொகுப்புகள், மாதிரிகள், பயிற்சி குறியீடு மற்றும் மதிப்பீட்டு ஸ்கிரிப்ட்கள் அனைத்தும் Qwen-2.5 மாதிரி சூழலில் திறந்தவையாக வழங்கப்பட்டுள்ளன. MiroMind-M1, Qwen-2.5 backbone-ஐ அடிப்படையாக கொண்டு, கணித காரணீயத்திற்கு சிறப்பாக மேம்படுத்தப்பட்டுள்ளது.
இந்த முன்னேற்றங்களின் தொழில்துறை தாக்கம் மிகப்பெரியது. 2025-இல் கூட்டு வலிமை கற்றல் துறை $122 பில்லியன் மதிப்பீட்டில் உள்ளது. இதன் பயன்பாடுகள் ரோபோட்டிக்ஸ், தானியங்கி வாகனங்கள், வழங்கல் சங்கிலி மேம்பாடு, சுகாதாரம் மற்றும் கேமிங் உள்ளிட்ட பல துறைகளில் பரவியுள்ளது. தொழில்நுட்பம் வளர்ச்சியடையும்போது, பயன்பாடுகளும் விரிவடைகின்றன.
முன்பு அணுக முடியாத நுட்பங்களை முழுமையாக வெளிப்படையாக மாற்றுவதன் மூலம், DAPO மற்றும் இதுபோன்ற திறந்த மூல முயற்சிகள் மேம்பட்ட ஏஐ திறன்களை ஜனநாயகமாக்கி, ஆராய்ச்சியாளர்கள், ஸ்டார்ட்அப்புகள் மற்றும் நிறுவப்பட்ட நிறுவனங்கள் ஆகியவை சொந்தமான அமைப்புகளின் கட்டுப்பாடின்றி இந்த புதுமைகளை மேம்படுத்தும் வாய்ப்பை வழங்குகின்றன.