DAPO: திறந்த மூலப் புரட்சி ஏஐ காரணீயத்தில் புரட்சியை ஏற்படுத்துகிறது

பைட் டான்ஸ் மற்றும் சிங்க்ஹுவா பல்கலைக்கழகத்தைச் சேர்ந்த ஆராய்ச்சியாளர்கள், DAPO எனும் முழுமையாக திறந்த மூலக் கூட்டு வலிமை கற்றல் அமைப்பை வெளியிட்டுள்ளனர். இது முன்னணி கணித காரணீய திறன்களை சாதித்து, முந்தைய மாதிரிகளை விட 50% குறைந்த பயிற்சி படிகள் மட்டுமே பயன்படுத்துகிறது. மேலும், இதுவரை மறைக்கப்பட்ட தொழில்நுட்ப விவரங்களை ஏஐ சமூகத்திற்கு வெளிப்படையாக வழங்குகிறது. இந்தப் புரட்சி, மேம்பட்ட ஏஐ காரணீய அமைப்புகளில் உள்ள வெளிப்படைத்தன்மை குறைபாட்டை சரிசெய்து, பரவலான புதுமை மற்றும் மறுஉற்பத்திக்கு வாய்ப்பு அளிக்கிறது.

திறந்த மூலக் கலைமயமான நுண்ணறிவில் ஒரு முக்கிய முன்னேற்றமாக, பைட் டான்ஸ் மற்றும் சிங்க்ஹுவா பல்கலைக்கழகத்தைச் சேர்ந்த ஆராய்ச்சியாளர்கள் DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization) எனும் புதிய கூட்டு வலிமை கற்றல் அமைப்பை அறிமுகப்படுத்தியுள்ளனர். இது மிகச் சிறந்த காரணீய திறன்களை அடைய மட்டுமல்லாமல், வெளிப்படைத்தன்மை மற்றும் அணுகலுக்கு முன்னுரிமை அளிக்கிறது.

DAPO, OpenAI மற்றும் DeepSeek போன்ற முன்னணி தொழில்நுட்ப நிறுவனங்கள் முக்கிய பயிற்சி விவரங்களை மறைப்பதால், கூட்டு வலிமை கற்றலில் முன்னணி முடிவுகளை மறுபடியும் உருவாக்குவதில் ஏஐ சமூகத்துக்கு ஏற்பட்ட சவால்களுக்கு நேரடி பதிலாக உருவாக்கப்பட்டுள்ளது. கூட்டு வலிமை கற்றல், பெரிய மொழி மாதிரிகளை (LLMs) மேம்படுத்துவதில் முக்கியப் பங்கு வகிக்கிறது. இது சிக்கலான பணிகளுக்கு தேவையான மேம்பட்ட காரணீய திறன்களை வழங்குகிறது. ஆனால், முக்கிய தொழில்நுட்ப நிறுவனங்கள் முக்கிய பயிற்சி விவரங்களை முழுமையாக பகிராததால், ஆராய்ச்சி சமூகத்திற்கு முன்னணி கூட்டு வலிமை கற்றல் நுட்பங்களை மறுபடியும் உருவாக்குவது கடினமாக உள்ளது. இந்த மறைவு, பரந்த அறிவியல் முயற்சிகள் மற்றும் கூட்டுறவு ஆராய்ச்சியின் முன்னேற்றத்தை கட்டுப்படுத்தியுள்ளது.

DAPO அமைப்பு, Qwen2.5-32B அடிப்படை மாதிரியை பயன்படுத்தி, சவாலான AIME 2024 கணிதப் போட்டியில் 50 புள்ளிகள் பெற்றுள்ளது. முந்தைய முயற்சிகள் பயிற்சி விவரங்களை மறைத்திருந்தாலும், DAPO பெரிய அளவிலான LLM கூட்டு வலிமை கற்றலில் வெற்றிகரமாக்கும் நான்கு முக்கிய நுட்பங்களை அறிமுகப்படுத்துகிறது. கூடுதலாக, ஆராய்ச்சியாளர்கள் தங்கள் பயிற்சி குறியீட்டை (verl framework-ல் உருவாக்கப்பட்டது) மற்றும் கவனமாகத் தேர்ந்தெடுக்கப்பட்ட, செயலாக்கப்பட்ட தரவுத்தொகுப்பையும் திறந்த மூலமாக வெளியிட்டுள்ளனர்.

DAPO-வை சிறப்பாக மாற்றுவது அதன் செயல்திறன். DAPO, DeepSeek-R1-Zero-Qwen-32B என்ற முந்தைய முன்னணி மாதிரியை விட சிறப்பாக செயல்படுகிறது, அதுவும் 50% குறைந்த பயிற்சி படிகள் மட்டுமே பயன்படுத்தி. இந்த செயல்திறன் நான்கு முக்கிய புதுமைகளால் ஏற்படுகிறது: முதல், "Clip-Higher" எனும் நுட்பம் entropy collapse எனும் சிக்கலை தீர்க்கிறது. இதில், மாதிரிகள் விரைவாக குறைந்த தேடல் முறைகளில் சிக்கிக்கொள்வதைத் தடுக்கும் வகையில், policy updates-ல் clipping ratio-வை கவனமாக நிர்வகிக்கிறது. இது மாதிரி வெளியீடுகளில் அதிக வகைமையை ஊக்குவிக்கிறது. "Dynamic Sampling" பயிற்சியில் செயலற்ற மாதிரிகளை தானாகவே வடிகட்டுவதன் மூலம் பயிற்சியின் செயல்திறனை அதிகரிக்கிறது, இதனால் நிலையான gradient signal கிடைக்கிறது. "Token-level Policy Gradient Loss" என்பது, மாதிரியின் நீள வேறுபாடுகளை சிறப்பாக கையாள, sample-ஆல் அல்லாமல் token-ஆல் loss-ஐ கணக்கிடும் நுட்பமாகும். கடைசியாக, "Overlong Reward Shaping" என்பது மிக நீளமான பதில்களுக்கு கட்டுப்படுத்தப்பட்ட தண்டனை வழங்கி, மாதிரிகளை சுருக்கமாகவும் செயல்திறனாகவும் பதிலளிக்க gently வழிநடத்துகிறது.

DAPO வெளியீடு, திறந்த மூலக் கூட்டு வலிமை கற்றலில் சமீபத்திய பல முன்னேற்றங்களுக்கிடையே வருகிறது. மற்றொரு குறிப்பிடத்தக்க முன்னேற்றம் MiroMind-M1 ஆகும், இது முழுமையாக திறந்த மூலப் பைப்லைன் ஆகும்; இதில் தரவுத்தொகுப்புகள், மாதிரிகள், பயிற்சி குறியீடு மற்றும் மதிப்பீட்டு ஸ்கிரிப்ட்கள் அனைத்தும் Qwen-2.5 மாதிரி சூழலில் திறந்தவையாக வழங்கப்பட்டுள்ளன. MiroMind-M1, Qwen-2.5 backbone-ஐ அடிப்படையாக கொண்டு, கணித காரணீயத்திற்கு சிறப்பாக மேம்படுத்தப்பட்டுள்ளது.

இந்த முன்னேற்றங்களின் தொழில்துறை தாக்கம் மிகப்பெரியது. 2025-இல் கூட்டு வலிமை கற்றல் துறை $122 பில்லியன் மதிப்பீட்டில் உள்ளது. இதன் பயன்பாடுகள் ரோபோட்டிக்ஸ், தானியங்கி வாகனங்கள், வழங்கல் சங்கிலி மேம்பாடு, சுகாதாரம் மற்றும் கேமிங் உள்ளிட்ட பல துறைகளில் பரவியுள்ளது. தொழில்நுட்பம் வளர்ச்சியடையும்போது, பயன்பாடுகளும் விரிவடைகின்றன.

முன்பு அணுக முடியாத நுட்பங்களை முழுமையாக வெளிப்படையாக மாற்றுவதன் மூலம், DAPO மற்றும் இதுபோன்ற திறந்த மூல முயற்சிகள் மேம்பட்ட ஏஐ திறன்களை ஜனநாயகமாக்கி, ஆராய்ச்சியாளர்கள், ஸ்டார்ட்அப்புகள் மற்றும் நிறுவப்பட்ட நிறுவனங்கள் ஆகியவை சொந்தமான அமைப்புகளின் கட்டுப்பாடின்றி இந்த புதுமைகளை மேம்படுத்தும் வாய்ப்பை வழங்குகின்றன.

Source:

DAPO: திறந்த மூலப் புரட்சி ஏஐ காரணீயத்தில் புரட்சியை ஏற்படுத்துகிறது

Latest News

GitHub Copilot 2 கோடி பயனாளர்களை எட்டியது, டெவலப்பர் பணிமுறைகளை மாற்றுகிறது

கூகுளின் Imagen 4 Ultra, ஏஐ பட உருவாக்கத் தரவரிசையில் மூன்றாவது இடத்தை பிடித்தது

மஸ்க்கின் xAI, Grok-ஐ வீடியோ ஏஐ மற்றும் மெய்நிகர் துணையர்களுடன் விரிவாக்குகிறது

மூன்வாலியின் இயற்பியல் சார்ந்த ஏ.ஐ. ஸ்கெட்ச்களை சினிமா தரமான வீடியோக்களாக மாற்றுகிறது

மனஸ் 100 ஏ.ஐ. முகவரிகள் கொண்ட பரலல் ஆராய்ச்சி குழுவை அறிமுகப்படுத்தியது

ஏஐ புரட்சி ரியல் எஸ்டேட் துறையை மாற்றுகிறது: $40 பில்லியன் தொழில் மாற்றம்

Llama 4 சக்தியுடன் கூடிய உதவியாளர் மூலம் எய்ஐ தொடர்பை மேட்டா புரட்சி செய்கிறது

ஷியோமி அடுத்த தலைமுறை ஏஐ குரல் மாதிரியை ஸ்மார்ட் ஹோம்கள் மற்றும் கார்கள் için அறிமுகப்படுத்தியது

பணியிட உற்பத்தித்திறன் சிக்கலை சமாளிக்க மைக்ரோசாஃப்ட் புதிய ஏஐ ஏஜென்ட்களை அறிமுகப்படுத்தியது

ஓப்பன் ஏஐ திறந்த மூலத்திற்கு மாறுகிறது: போட்டி ஏஐ பரப்பை மறுவடிவமைக்கிறது

DAPO: திறந்த மூலப் புரட்சி ஏஐ காரணீயத்தில் புரட்சியை ஏற்படுத்துகிறது

Related Articles

GitHub Copilot 2 கோடி பயனாளர்களை எட்டியது, டெவலப்பர் பணிமுறைகளை மாற்றுகிறது

மஸ்க்கின் xAI, Grok-ஐ வீடியோ ஏஐ மற்றும் மெய்நிகர் துணையர்களுடன் விரிவாக்குகிறது

மனஸ் 100 ஏ.ஐ. முகவரிகள் கொண்ட பரலல் ஆராய்ச்சி குழுவை அறிமுகப்படுத்தியது

ஏஐ புரட்சி ரியல் எஸ்டேட் துறையை மாற்றுகிறது: $40 பில்லியன் தொழில் மாற்றம்

ஷியோமி அடுத்த தலைமுறை ஏஐ குரல் மாதிரியை ஸ்மார்ட் ஹோம்கள் மற்றும் கார்கள் için அறிமுகப்படுத்தியது

Latest News

GitHub Copilot 2 கோடி பயனாளர்களை எட்டியது, டெவலப்பர் பணிமுறைகளை மாற்றுகிறது

கூகுளின் Imagen 4 Ultra, ஏஐ பட உருவாக்கத் தரவரிசையில் மூன்றாவது இடத்தை பிடித்தது

மஸ்க்கின் xAI, Grok-ஐ வீடியோ ஏஐ மற்றும் மெய்நிகர் துணையர்களுடன் விரிவாக்குகிறது

மூன்வாலியின் இயற்பியல் சார்ந்த ஏ.ஐ. ஸ்கெட்ச்களை சினிமா தரமான வீடியோக்களாக மாற்றுகிறது

மனஸ் 100 ஏ.ஐ. முகவரிகள் கொண்ட பரலல் ஆராய்ச்சி குழுவை அறிமுகப்படுத்தியது

ஏஐ புரட்சி ரியல் எஸ்டேட் துறையை மாற்றுகிறது: $40 பில்லியன் தொழில் மாற்றம்

Llama 4 சக்தியுடன் கூடிய உதவியாளர் மூலம் எய்ஐ தொடர்பை மேட்டா புரட்சி செய்கிறது

ஷியோமி அடுத்த தலைமுறை ஏஐ குரல் மாதிரியை ஸ்மார்ட் ஹோம்கள் மற்றும் கார்கள் için அறிமுகப்படுத்தியது

பணியிட உற்பத்தித்திறன் சிக்கலை சமாளிக்க மைக்ரோசாஃப்ட் புதிய ஏஐ ஏஜென்ட்களை அறிமுகப்படுத்தியது

ஓப்பன் ஏஐ திறந்த மூலத்திற்கு மாறுகிறது: போட்டி ஏஐ பரப்பை மறுவடிவமைக்கிறது