menu
close

DAPO: Descoperire Open-Source Revoluționează Raționamentul AI

Cercetători de la ByteDance și Universitatea Tsinghua au lansat DAPO, un sistem de învățare prin întărire complet open-source care atinge performanțe de top în raționamentul matematic. Sistemul depășește modelele anterioare folosind cu 50% mai puțini pași de antrenament și face accesibile detalii tehnice anterior ascunse întregii comunități AI. Această descoperire abordează lipsa de transparență din sistemele avansate de raționament AI, facilitând inovația și reproductibilitatea la scară largă.
DAPO: Descoperire Open-Source Revoluționează Raționamentul AI

Într-un progres semnificativ pentru inteligența artificială open-source, cercetători de la ByteDance și Universitatea Tsinghua au prezentat DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization), un sistem inovator de învățare prin întărire care atinge capabilități excepționale de raționament, punând accent pe transparență și accesibilitate.

DAPO reprezintă un răspuns direct la dificultățile comunității AI de a reproduce rezultatele de ultimă oră în învățarea prin întărire, cauzate de lipsa detaliilor tehnice oferite de jucători mari din industrie precum OpenAI și DeepSeek. Învățarea prin întărire a devenit esențială pentru dezvoltarea modelelor lingvistice mari (LLM), oferindu-le abilități de raționament îmbunătățite, necesare pentru sarcini complexe. Totuși, comunitatea de cercetare se confruntă cu provocări considerabile în reproducerea tehnicilor RL de ultimă generație, din cauza dezvăluirii incomplete a detaliilor cheie de antrenament de către principalii actori din industrie. Această lipsă de transparență a limitat progresul eforturilor științifice și al cercetării colaborative.

Sistemul obține 50 de puncte la competiția matematică AIME 2024, folosind modelul de bază Qwen2.5-32B. Spre deosebire de lucrările anterioare care nu dezvăluie detalii de antrenament, DAPO introduce patru tehnici cheie ce fac posibilă învățarea prin întărire la scară largă pentru LLM-uri. În plus, cercetătorii au publicat codul de antrenament open-source, construit pe framework-ul verl, împreună cu un set de date atent selectat și procesat.

Ceea ce face DAPO deosebit de impresionant este eficiența sa. Depășește precedentul model de referință DeepSeek-R1-Zero-Qwen-32B folosind doar 50% din pașii de antrenament. Această eficiență provine din patru inovații de bază: Prima, „Clip-Higher”, abordează problema colapsului entropiei, o situație în care modelele se stabilizează prematur pe tipare limitate de explorare. Prin gestionarea atentă a raportului de tăiere în actualizările politicii, această tehnică încurajează o diversitate mai mare a rezultatelor modelului. „Dynamic Sampling” contracarează ineficiențele din antrenament prin filtrarea dinamică a eșantioanelor în funcție de utilitatea lor, asigurând astfel un semnal de gradient mai consistent. „Token-level Policy Gradient Loss” oferă o metodă rafinată de calcul al pierderii, punând accent pe ajustări la nivel de token, nu de eșantion, pentru a acomoda mai bine secvențele de raționament de lungimi variabile. În final, „Overlong Reward Shaping” introduce o penalizare controlată pentru răspunsurile excesiv de lungi, ghidând modelele spre raționamente concise și eficiente.

Lansarea DAPO are loc pe fondul unui val de inovații open-source în domeniul învățării prin întărire. Un alt progres notabil este MiroMind-M1, o suită complet open-source ce acoperă seturi de date, modele, cod de antrenament și scripturi de evaluare, stabilind noi standarde de deschidere și performanță în raționamentul matematic în ecosistemul modelului Qwen-2.5. MiroMind-M1 este construit pe baza robustă Qwen-2.5, cu îmbunătățiri dedicate raționamentului matematic.

Impactul acestor dezvoltări asupra industriei este semnificativ, sectorul de învățare prin întărire fiind estimat la peste 122 de miliarde de dolari în 2025. Aplicațiile sale acoperă robotică, vehicule autonome, optimizarea lanțului de aprovizionare, sănătate și gaming, cu noi cazuri de utilizare apărând pe măsură ce tehnologia evoluează.

Prin transparentizarea completă a metodologiilor anterior inaccesibile, DAPO și alte inițiative open-source democratizează capabilitățile AI avansate, permițând cercetătorilor, startup-urilor și companiilor consacrate să construiască pe baza acestor inovații fără constrângerile sistemelor proprietare.

Source:

Latest News