menu
close

DAPO: Průlom v open-source revolucionalizuje AI uvažování

Výzkumníci z ByteDance a Univerzity Tsinghua představili DAPO, plně open-source systém pro posilované učení, který dosahuje špičkových schopností matematického uvažování. Systém překonává předchozí modely při použití o 50 % méně trénovacích kroků a zpřístupňuje dříve utajované technické detaily širší AI komunitě. Tento průlom řeší problém transparentnosti v pokročilých systémech AI uvažování a umožňuje širší inovace a reprodukovatelnost.
DAPO: Průlom v open-source revolucionalizuje AI uvažování

Ve významném posunu pro open-source umělou inteligenci představili výzkumníci z ByteDance a Univerzity Tsinghua DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization), průlomový systém posilovaného učení, který dosahuje výjimečných schopností uvažování s důrazem na transparentnost a přístupnost.

DAPO je přímou reakcí na potíže AI komunity s reprodukcí špičkových výsledků posilovaného učení kvůli utajovaným technickým detailům ze strany velkých hráčů jako OpenAI a DeepSeek. Posilované učení se stalo klíčovým pro rozvoj velkých jazykových modelů (LLM), kterým umožňuje lepší schopnosti uvažování potřebné pro komplexní úlohy. Výzkumná komunita však čelí značným problémům při reprodukci nejmodernějších RL technik kvůli neúplnému zveřejňování klíčových trénovacích detailů ze strany hlavních průmyslových hráčů. Tato netransparentnost omezila pokrok širší vědecké práce a spolupráce.

Systém dosahuje 50 bodů v náročné matematické soutěži AIME 2024 s využitím základního modelu Qwen2.5-32B. Na rozdíl od předchozích prací, které zadržují trénovací detaily, DAPO zavádí čtyři klíčové techniky, které umožňují úspěšné posilované učení ve velkém měřítku u LLM. Výzkumníci navíc open-sourcovali svůj trénovací kód, postavený na frameworku verl, spolu s pečlivě vybranou a zpracovanou datovou sadou.

To, co činí DAPO obzvlášť působivým, je jeho efektivita. Překonává předchozí špičkový model DeepSeek-R1-Zero-Qwen-32B při použití pouze 50 % trénovacích kroků. Tato efektivita vychází ze čtyř hlavních inovací: První, "Clip-Higher", řeší problém kolapsu entropie, kdy se modely předčasně ustálí na omezených vzorcích zkoumání. Díky pečlivému řízení poměru ořezávání při aktualizacích politiky tato technika podporuje větší rozmanitost výstupů modelu. "Dynamické vzorkování" eliminuje neefektivitu tréninku tím, že dynamicky filtruje vzorky podle jejich užitečnosti, což zajišťuje konzistentnější gradientní signál. "Ztráta na úrovni tokenu" nabízí vylepšený způsob výpočtu ztráty, který zdůrazňuje úpravy na úrovni tokenu místo vzorku, aby lépe reflektoval různé délky uvažovacích sekvencí. Nakonec "Overlong Reward Shaping" zavádí kontrolovanou penalizaci za příliš dlouhé odpovědi, čímž jemně vede modely ke stručnějšímu a efektivnějšímu uvažování.

Uvedení DAPO přichází v době nárůstu open-source průlomů v posilovaném učení. Dalším významným pokrokem je MiroMind-M1, plně open-source pipeline zahrnující datové sady, modely, trénovací kód i evaluační skripty, která nastavuje nové standardy otevřenosti a špičkového matematického uvažování v rámci ekosystému modelu Qwen-2.5. MiroMind-M1 je postaven na robustním základu Qwen-2.5 s vylepšeními zaměřenými přímo na matematické uvažování.

Dopad těchto inovací na průmysl je značný – sektor posilovaného učení je v roce 2025 odhadován na více než 122 miliard dolarů. Jeho aplikace zahrnují robotiku, autonomní vozidla, optimalizaci dodavatelských řetězců, zdravotnictví i herní průmysl, přičemž využití se rozšiřuje s tím, jak technologie zraje.

Tím, že DAPO a podobné open-source iniciativy zpřístupňují dříve nedostupné metodiky, demokratizují pokročilé AI schopnosti a umožňují výzkumníkům, startupům i zavedeným firmám stavět na těchto inovacích bez omezení proprietárních systémů.

Source:

Latest News