V dôležitom pokroku pre open-source umelú inteligenciu výskumníci z ByteDance a Tsinghua University predstavili DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization), prelomový systém posilneného učenia, ktorý dosahuje výnimočné schopnosti uvažovania s dôrazom na transparentnosť a prístupnosť.
DAPO je priamou odpoveďou na problémy AI komunity s reprodukovaním špičkových výsledkov v oblasti posilneného učenia, ktoré vznikli kvôli utajovaniu technických detailov zo strany veľkých hráčov ako OpenAI a DeepSeek. Posilnené učenie sa stalo kľúčovým pre rozvoj veľkých jazykových modelov (LLM), ktorým poskytuje lepšie schopnosti uvažovania potrebné na riešenie komplexných úloh. Výskumná komunita však čelí výrazným problémom s reprodukovateľnosťou najmodernejších RL techník, pretože hlavní hráči často nezverejňujú kľúčové detaily tréningu. Táto netransparentnosť brzdí pokrok širšieho vedeckého úsilia aj spolupráce.
Systém dosiahol 50 bodov v náročnej matematickej súťaži AIME 2024 s použitím základného modelu Qwen2.5-32B. Na rozdiel od predchádzajúcich prác, ktoré zadržiavali tréningové detaily, DAPO zavádza štyri kľúčové techniky, ktoré umožňujú úspešné posilnené učenie veľkých LLM. Výskumníci navyše open-source zverejnili svoj tréningový kód, postavený na frameworku verl, spolu so starostlivo kurátovanou a spracovanou dátovou sadou.
Čo robí DAPO mimoriadne pôsobivým, je jeho efektivita. Prekonáva doterajší špičkový model DeepSeek-R1-Zero-Qwen-32B pri použití iba 50 % tréningových krokov. Táto efektivita vychádza zo štyroch hlavných inovácií: Prvou je "Clip-Higher", ktorá rieši problém kolapsu entropie, teda situácie, keď sa modely predčasne ustália na obmedzených vzorcoch skúmania. Starostlivým riadením pomeru orezania pri aktualizáciách politiky táto technika podporuje väčšiu rozmanitosť výstupov modelu. "Dynamické vzorkovanie" zvyšuje efektivitu tréningu dynamickým filtrovaním vzoriek podľa ich užitočnosti, čím zabezpečuje konzistentnejší gradientový signál. "Token-level Policy Gradient Loss" zavádza vylepšený spôsob výpočtu straty, ktorý kladie dôraz na úpravy na úrovni tokenov namiesto vzoriek, aby lepšie zvládal rôzne dĺžky uvažovacích sekvencií. Napokon "Overlong Reward Shaping" zavádza kontrolovanú penalizáciu za príliš dlhé odpovede, čím modely jemne vedie ku stručnejšiemu a efektívnejšiemu uvažovaniu.
Uvedenie DAPO prichádza v čase nárastu open-source prelomov v oblasti posilneného učenia. Ďalším významným pokrokom je MiroMind-M1, plne open-source pipeline zahŕňajúci dátové sady, modely, tréningový kód a evaluačné skripty, ktorý nastavuje nové štandardy otvorenosti a špičkového matematického uvažovania v ekosystéme modelov Qwen-2.5. MiroMind-M1 je postavený na robustnom základe Qwen-2.5 s vylepšeniami zameranými práve na matematické uvažovanie.
Dopad týchto vývojov na priemysel je značný – sektor posilneného učenia má v roku 2025 hodnotu viac ako 122 miliárd dolárov. Jeho aplikácie siahajú od robotiky, autonómnych vozidiel, optimalizácie dodávateľských reťazcov, zdravotníctva až po herný priemysel, pričom s dozrievaním technológie sa možnosti využitia ďalej rozširujú.
Tým, že DAPO a podobné open-source iniciatívy sprístupňujú doteraz nedostupné metodiky, demokratizujú pokročilé AI schopnosti a umožňujú výskumníkom, startupom aj etablovaným firmám stavať na týchto inováciách bez obmedzení proprietárnych systémov.