DAPO: Prelom v open-source mení pravidlá AI uvažovania

Výskumníci z ByteDance a Tsinghua University predstavili DAPO, plne open-source systém posilneného učenia, ktorý dosahuje špičkové matematické uvažovacie schopnosti. Systém prekonáva predchádzajúce modely pri použití o 50 % menej tréningových krokov a sprístupňuje doteraz utajované technické detaily širšej AI komunite. Tento prelom rieši problém transparentnosti v pokročilých AI systémoch uvažovania a umožňuje širšie inovácie aj reprodukovateľnosť.

V dôležitom pokroku pre open-source umelú inteligenciu výskumníci z ByteDance a Tsinghua University predstavili DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization), prelomový systém posilneného učenia, ktorý dosahuje výnimočné schopnosti uvažovania s dôrazom na transparentnosť a prístupnosť.

DAPO je priamou odpoveďou na problémy AI komunity s reprodukovaním špičkových výsledkov v oblasti posilneného učenia, ktoré vznikli kvôli utajovaniu technických detailov zo strany veľkých hráčov ako OpenAI a DeepSeek. Posilnené učenie sa stalo kľúčovým pre rozvoj veľkých jazykových modelov (LLM), ktorým poskytuje lepšie schopnosti uvažovania potrebné na riešenie komplexných úloh. Výskumná komunita však čelí výrazným problémom s reprodukovateľnosťou najmodernejších RL techník, pretože hlavní hráči často nezverejňujú kľúčové detaily tréningu. Táto netransparentnosť brzdí pokrok širšieho vedeckého úsilia aj spolupráce.

Systém dosiahol 50 bodov v náročnej matematickej súťaži AIME 2024 s použitím základného modelu Qwen2.5-32B. Na rozdiel od predchádzajúcich prác, ktoré zadržiavali tréningové detaily, DAPO zavádza štyri kľúčové techniky, ktoré umožňujú úspešné posilnené učenie veľkých LLM. Výskumníci navyše open-source zverejnili svoj tréningový kód, postavený na frameworku verl, spolu so starostlivo kurátovanou a spracovanou dátovou sadou.

Čo robí DAPO mimoriadne pôsobivým, je jeho efektivita. Prekonáva doterajší špičkový model DeepSeek-R1-Zero-Qwen-32B pri použití iba 50 % tréningových krokov. Táto efektivita vychádza zo štyroch hlavných inovácií: Prvou je "Clip-Higher", ktorá rieši problém kolapsu entropie, teda situácie, keď sa modely predčasne ustália na obmedzených vzorcoch skúmania. Starostlivým riadením pomeru orezania pri aktualizáciách politiky táto technika podporuje väčšiu rozmanitosť výstupov modelu. "Dynamické vzorkovanie" zvyšuje efektivitu tréningu dynamickým filtrovaním vzoriek podľa ich užitočnosti, čím zabezpečuje konzistentnejší gradientový signál. "Token-level Policy Gradient Loss" zavádza vylepšený spôsob výpočtu straty, ktorý kladie dôraz na úpravy na úrovni tokenov namiesto vzoriek, aby lepšie zvládal rôzne dĺžky uvažovacích sekvencií. Napokon "Overlong Reward Shaping" zavádza kontrolovanú penalizáciu za príliš dlhé odpovede, čím modely jemne vedie ku stručnejšiemu a efektívnejšiemu uvažovaniu.

Uvedenie DAPO prichádza v čase nárastu open-source prelomov v oblasti posilneného učenia. Ďalším významným pokrokom je MiroMind-M1, plne open-source pipeline zahŕňajúci dátové sady, modely, tréningový kód a evaluačné skripty, ktorý nastavuje nové štandardy otvorenosti a špičkového matematického uvažovania v ekosystéme modelov Qwen-2.5. MiroMind-M1 je postavený na robustnom základe Qwen-2.5 s vylepšeniami zameranými práve na matematické uvažovanie.

Dopad týchto vývojov na priemysel je značný – sektor posilneného učenia má v roku 2025 hodnotu viac ako 122 miliárd dolárov. Jeho aplikácie siahajú od robotiky, autonómnych vozidiel, optimalizácie dodávateľských reťazcov, zdravotníctva až po herný priemysel, pričom s dozrievaním technológie sa možnosti využitia ďalej rozširujú.

Tým, že DAPO a podobné open-source iniciatívy sprístupňujú doteraz nedostupné metodiky, demokratizujú pokročilé AI schopnosti a umožňujú výskumníkom, startupom aj etablovaným firmám stavať na týchto inováciách bez obmedzení proprietárnych systémov.

Source:

DAPO: Prelom v open-source mení pravidlá AI uvažovania

Latest News

GitHub Copilot dosiahol 20 miliónov používateľov a mení pracovné postupy vývojárov

Google Imagen 4 Ultra sa vyšplhal na tretie miesto v rebríčku generovania AI obrázkov

Muskova xAI rozširuje Grok o video AI a virtuálnych spoločníkov

Moonvalleyho fyzikálne riadená AI premieňa skice na filmovú realitu

Manus nasadzuje roj 100 AI agentov na paralelné výskumné úlohy

Revolúcia umelej inteligencie mení realitný trh: Transformácia odvetvia v hodnote 40 miliárd dolárov

Meta revolučne mení interakciu s AI vďaka asistentovi poháňanému Llama 4

Xiaomi predstavuje novú generáciu AI hlasového modelu pre inteligentné domácnosti a autá

Microsoft predstavuje AI agentov na boj s krízou produktivity na pracovisku

OpenAI mení kurz: Prechod na open-source pod tlakom konkurencie mení svet AI

DAPO: Prelom v open-source mení pravidlá AI uvažovania

Related Articles

GitHub Copilot dosiahol 20 miliónov používateľov a mení pracovné postupy vývojárov

Muskova xAI rozširuje Grok o video AI a virtuálnych spoločníkov

Manus nasadzuje roj 100 AI agentov na paralelné výskumné úlohy

Revolúcia umelej inteligencie mení realitný trh: Transformácia odvetvia v hodnote 40 miliárd dolárov

Xiaomi predstavuje novú generáciu AI hlasového modelu pre inteligentné domácnosti a autá

Latest News

GitHub Copilot dosiahol 20 miliónov používateľov a mení pracovné postupy vývojárov

Google Imagen 4 Ultra sa vyšplhal na tretie miesto v rebríčku generovania AI obrázkov

Muskova xAI rozširuje Grok o video AI a virtuálnych spoločníkov

Moonvalleyho fyzikálne riadená AI premieňa skice na filmovú realitu

Manus nasadzuje roj 100 AI agentov na paralelné výskumné úlohy

Revolúcia umelej inteligencie mení realitný trh: Transformácia odvetvia v hodnote 40 miliárd dolárov

Meta revolučne mení interakciu s AI vďaka asistentovi poháňanému Llama 4

Xiaomi predstavuje novú generáciu AI hlasového modelu pre inteligentné domácnosti a autá

Microsoft predstavuje AI agentov na boj s krízou produktivity na pracovisku

OpenAI mení kurz: Prechod na open-source pod tlakom konkurencie mení svet AI