menu
close

DAPO: Open-Source na Tagumpay na Nagpapabago sa AI Reasoning

Inilabas ng mga mananaliksik mula sa ByteDance at Tsinghua University ang DAPO, isang ganap na open-source na reinforcement learning system na nakakamit ng pinakamataas na antas ng kakayahan sa matematikal na pangangatwiran. Nilalampasan ng sistema ang mga naunang modelo habang gumagamit ng 50% na mas kaunting training steps at ginagawang bukas sa mas malawak na AI community ang mga dating nakatagong teknikal na detalye. Tinutugunan ng tagumpay na ito ang kakulangan sa transparency sa mga advanced AI reasoning system, na nagpapalawak ng inobasyon at reproducibility.
DAPO: Open-Source na Tagumpay na Nagpapabago sa AI Reasoning

Sa isang mahalagang pag-unlad para sa open-source na artificial intelligence, inilunsad ng mga mananaliksik mula sa ByteDance at Tsinghua University ang DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization), isang makabagong reinforcement learning system na nakakamit ng pambihirang kakayahan sa pangangatwiran habang inuuna ang transparency at accessibility.

Ang DAPO ay direktang tugon sa hamon ng AI community sa pagrereproduce ng mga state-of-the-art na resulta sa reinforcement learning dahil sa mga nakatagong teknikal na detalye mula sa malalaking kumpanya gaya ng OpenAI at DeepSeek. Naging sentro na ang reinforcement learning sa pagpapalago ng Large Language Models (LLMs), na nagbibigay dito ng mas mahusay na kakayahan sa pangangatwiran na kailangan para sa mga komplikadong gawain. Gayunpaman, nahaharap ang research community sa malalaking hamon sa pagrereproduce ng mga pinakabagong RL techniques dahil sa hindi ganap na pagsisiwalat ng mahahalagang detalye ng training mula sa malalaking kumpanya. Ang kakulangan ng transparency na ito ay naglilimita sa progreso ng mas malawak na siyentipikong pagsisikap at kolaboratibong pananaliksik.

Nakakamit ng sistema ang 50 puntos sa mahirap na AIME 2024 mathematical competition gamit ang Qwen2.5-32B base model. Hindi tulad ng mga naunang pag-aaral na hindi isiniwalat ang mga detalye ng training, ipinakilala ng DAPO ang apat na pangunahing teknik na nagpapasikat sa large-scale LLM reinforcement learning. Bukod dito, in-open-source ng mga mananaliksik ang kanilang training code, na nakabase sa verl framework, kasama ang maingat na piniling at pinrosesong dataset.

Ang kahanga-hanga sa DAPO ay ang kahusayan nito. Nilalampasan nito ang dating nangungunang DeepSeek-R1-Zero-Qwen-32B habang gumagamit lamang ng 50% ng training steps. Ang kahusayan na ito ay nagmumula sa apat na pangunahing inobasyon: Ang una, "Clip-Higher," ay tumutugon sa isyu ng entropy collapse, kung saan ang mga modelo ay maagang nagkakaroon ng limitadong pattern ng exploration. Sa pamamagitan ng maingat na pamamahala ng clipping ratio sa policy updates, hinihikayat ng teknik na ito ang mas malawak na diversity sa mga output ng modelo. Ang "Dynamic Sampling" ay lumulutas sa mga hindi episyenteng bahagi ng training sa pamamagitan ng dynamic na pagsasala ng mga sample batay sa kanilang gamit, kaya't tinitiyak ang mas konsistenteng gradient signal. Ang "Token-level Policy Gradient Loss" ay nag-aalok ng pinong paraan ng pagkalkula ng loss, na nagbibigay-diin sa token-level kaysa sample-level na mga adjustment upang mas mahusay na matugunan ang iba't ibang haba ng reasoning sequences. Sa huli, ang "Overlong Reward Shaping" ay nagpapakilala ng kontroladong penalty para sa labis na mahahabang sagot, na banayad na gumagabay sa mga modelo tungo sa mas maikli at episyenteng pangangatwiran.

Ang paglabas ng DAPO ay kasabay ng pagdami ng mga open-source na tagumpay sa reinforcement learning. Isa pang kapansin-pansing pag-unlad ay ang MiroMind-M1, isang ganap na open-source na pipeline mula dataset, modelo, training code, at evaluation scripts na nagtatakda ng bagong pamantayan para sa openness at state-of-the-art na matematikal na pangangatwiran sa loob ng Qwen-2.5 model ecosystem. Ang MiroMind-M1 ay nakabase sa matatag na Qwen-2.5 backbone, na may mga pagpapahusay na partikular para sa matematikal na pangangatwiran.

Malaki ang epekto ng mga pag-unlad na ito sa industriya, kung saan tinatayang aabot sa mahigit $122 bilyon ang reinforcement learning sector pagsapit ng 2025. Sumasaklaw ang mga aplikasyon nito sa robotics, autonomous vehicles, supply chain optimization, healthcare, at gaming, at patuloy pang lumalawak ang mga gamit habang nagmamature ang teknolohiya.

Sa pamamagitan ng ganap na pagsisiwalat ng mga dating hindi naaabot na metodolohiya, ang DAPO at mga katulad na open-source na inisyatiba ay nagdidemokratisa ng mga advanced na kakayahan ng AI, na nagbibigay-daan sa mga mananaliksik, startup, at mga kumpanyang matagal na sa industriya na magpatuloy sa mga inobasyong ito nang walang hadlang ng mga proprietary na sistema.

Source:

Latest News