DAPO: Open-Source na Tagumpay na Nagpapabago sa AI Reasoning

Inilabas ng mga mananaliksik mula sa ByteDance at Tsinghua University ang DAPO, isang ganap na open-source na reinforcement learning system na nakakamit ng pinakamataas na antas ng kakayahan sa matematikal na pangangatwiran. Nilalampasan ng sistema ang mga naunang modelo habang gumagamit ng 50% na mas kaunting training steps at ginagawang bukas sa mas malawak na AI community ang mga dating nakatagong teknikal na detalye. Tinutugunan ng tagumpay na ito ang kakulangan sa transparency sa mga advanced AI reasoning system, na nagpapalawak ng inobasyon at reproducibility.

Sa isang mahalagang pag-unlad para sa open-source na artificial intelligence, inilunsad ng mga mananaliksik mula sa ByteDance at Tsinghua University ang DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization), isang makabagong reinforcement learning system na nakakamit ng pambihirang kakayahan sa pangangatwiran habang inuuna ang transparency at accessibility.

Ang DAPO ay direktang tugon sa hamon ng AI community sa pagrereproduce ng mga state-of-the-art na resulta sa reinforcement learning dahil sa mga nakatagong teknikal na detalye mula sa malalaking kumpanya gaya ng OpenAI at DeepSeek. Naging sentro na ang reinforcement learning sa pagpapalago ng Large Language Models (LLMs), na nagbibigay dito ng mas mahusay na kakayahan sa pangangatwiran na kailangan para sa mga komplikadong gawain. Gayunpaman, nahaharap ang research community sa malalaking hamon sa pagrereproduce ng mga pinakabagong RL techniques dahil sa hindi ganap na pagsisiwalat ng mahahalagang detalye ng training mula sa malalaking kumpanya. Ang kakulangan ng transparency na ito ay naglilimita sa progreso ng mas malawak na siyentipikong pagsisikap at kolaboratibong pananaliksik.

Nakakamit ng sistema ang 50 puntos sa mahirap na AIME 2024 mathematical competition gamit ang Qwen2.5-32B base model. Hindi tulad ng mga naunang pag-aaral na hindi isiniwalat ang mga detalye ng training, ipinakilala ng DAPO ang apat na pangunahing teknik na nagpapasikat sa large-scale LLM reinforcement learning. Bukod dito, in-open-source ng mga mananaliksik ang kanilang training code, na nakabase sa verl framework, kasama ang maingat na piniling at pinrosesong dataset.

Ang kahanga-hanga sa DAPO ay ang kahusayan nito. Nilalampasan nito ang dating nangungunang DeepSeek-R1-Zero-Qwen-32B habang gumagamit lamang ng 50% ng training steps. Ang kahusayan na ito ay nagmumula sa apat na pangunahing inobasyon: Ang una, "Clip-Higher," ay tumutugon sa isyu ng entropy collapse, kung saan ang mga modelo ay maagang nagkakaroon ng limitadong pattern ng exploration. Sa pamamagitan ng maingat na pamamahala ng clipping ratio sa policy updates, hinihikayat ng teknik na ito ang mas malawak na diversity sa mga output ng modelo. Ang "Dynamic Sampling" ay lumulutas sa mga hindi episyenteng bahagi ng training sa pamamagitan ng dynamic na pagsasala ng mga sample batay sa kanilang gamit, kaya't tinitiyak ang mas konsistenteng gradient signal. Ang "Token-level Policy Gradient Loss" ay nag-aalok ng pinong paraan ng pagkalkula ng loss, na nagbibigay-diin sa token-level kaysa sample-level na mga adjustment upang mas mahusay na matugunan ang iba't ibang haba ng reasoning sequences. Sa huli, ang "Overlong Reward Shaping" ay nagpapakilala ng kontroladong penalty para sa labis na mahahabang sagot, na banayad na gumagabay sa mga modelo tungo sa mas maikli at episyenteng pangangatwiran.

Ang paglabas ng DAPO ay kasabay ng pagdami ng mga open-source na tagumpay sa reinforcement learning. Isa pang kapansin-pansing pag-unlad ay ang MiroMind-M1, isang ganap na open-source na pipeline mula dataset, modelo, training code, at evaluation scripts na nagtatakda ng bagong pamantayan para sa openness at state-of-the-art na matematikal na pangangatwiran sa loob ng Qwen-2.5 model ecosystem. Ang MiroMind-M1 ay nakabase sa matatag na Qwen-2.5 backbone, na may mga pagpapahusay na partikular para sa matematikal na pangangatwiran.

Malaki ang epekto ng mga pag-unlad na ito sa industriya, kung saan tinatayang aabot sa mahigit $122 bilyon ang reinforcement learning sector pagsapit ng 2025. Sumasaklaw ang mga aplikasyon nito sa robotics, autonomous vehicles, supply chain optimization, healthcare, at gaming, at patuloy pang lumalawak ang mga gamit habang nagmamature ang teknolohiya.

Sa pamamagitan ng ganap na pagsisiwalat ng mga dating hindi naaabot na metodolohiya, ang DAPO at mga katulad na open-source na inisyatiba ay nagdidemokratisa ng mga advanced na kakayahan ng AI, na nagbibigay-daan sa mga mananaliksik, startup, at mga kumpanyang matagal na sa industriya na magpatuloy sa mga inobasyong ito nang walang hadlang ng mga proprietary na sistema.

Source:

DAPO: Open-Source na Tagumpay na Nagpapabago sa AI Reasoning

Latest News

GitHub Copilot Umabot na sa 20M Gumagamit, Binabago ang Workflow ng mga Developer

Umakyat sa Ikatlong Pwesto ang Google's Imagen 4 Ultra sa AI Image Generation Rankings

Pinalawak ng xAI ni Musk ang Grok gamit ang Video AI at Virtual na Kapanalig

AI na Pinapagana ng Physics ng Moonvalley: Binabago ang Mga Sketch Menor sa Cinematic na Realidad

Manus Naglunsad ng 100-AI Agent Swarm para sa Sabayang Pananaliksik

Rebolusyon ng AI Binabago ang Real Estate: $40 Bilyong Transformasyon ng Industriya

Meta Binabago ang Pakikipag-ugnayan sa AI gamit ang Llama 4-Na-Pinapatakbong Asistente

Ipinakilala ng Xiaomi ang Next-Gen AI Voice Model para sa Smart Homes at Sasakyan

Inilunsad ng Microsoft ang AI Agents Laban sa Krisis ng Produktibidad sa Trabaho

OpenAI, Lumihis Patungo sa Open-Source Habang Binabago ng Kompetisyon ang AI Landscape

DAPO: Open-Source na Tagumpay na Nagpapabago sa AI Reasoning

Related Articles

GitHub Copilot Umabot na sa 20M Gumagamit, Binabago ang Workflow ng mga Developer

Pinalawak ng xAI ni Musk ang Grok gamit ang Video AI at Virtual na Kapanalig

Manus Naglunsad ng 100-AI Agent Swarm para sa Sabayang Pananaliksik

Rebolusyon ng AI Binabago ang Real Estate: $40 Bilyong Transformasyon ng Industriya

Ipinakilala ng Xiaomi ang Next-Gen AI Voice Model para sa Smart Homes at Sasakyan

Latest News

GitHub Copilot Umabot na sa 20M Gumagamit, Binabago ang Workflow ng mga Developer

Umakyat sa Ikatlong Pwesto ang Google's Imagen 4 Ultra sa AI Image Generation Rankings

Pinalawak ng xAI ni Musk ang Grok gamit ang Video AI at Virtual na Kapanalig

AI na Pinapagana ng Physics ng Moonvalley: Binabago ang Mga Sketch Menor sa Cinematic na Realidad

Manus Naglunsad ng 100-AI Agent Swarm para sa Sabayang Pananaliksik

Rebolusyon ng AI Binabago ang Real Estate: $40 Bilyong Transformasyon ng Industriya

Meta Binabago ang Pakikipag-ugnayan sa AI gamit ang Llama 4-Na-Pinapatakbong Asistente

Ipinakilala ng Xiaomi ang Next-Gen AI Voice Model para sa Smart Homes at Sasakyan

Inilunsad ng Microsoft ang AI Agents Laban sa Krisis ng Produktibidad sa Trabaho

OpenAI, Lumihis Patungo sa Open-Source Habang Binabago ng Kompetisyon ang AI Landscape