menu
close

DAPO: Una svolta open-source rivoluziona il ragionamento dell’IA

Ricercatori di ByteDance e dell’Università Tsinghua hanno rilasciato DAPO, un sistema di reinforcement learning completamente open-source che raggiunge capacità di ragionamento matematico all’avanguardia. Il sistema supera i modelli precedenti utilizzando il 50% in meno di passaggi di addestramento e rende accessibili alla comunità AI dettagli tecnici prima nascosti. Questa innovazione colma il divario di trasparenza nei sistemi avanzati di ragionamento IA, favorendo innovazione e riproducibilità più ampie.
DAPO: Una svolta open-source rivoluziona il ragionamento dell’IA

In un importante passo avanti per l’intelligenza artificiale open-source, ricercatori di ByteDance e dell’Università Tsinghua hanno presentato DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization), un sistema di reinforcement learning rivoluzionario che raggiunge capacità di ragionamento eccezionali, ponendo al centro trasparenza e accessibilità.

DAPO nasce come risposta diretta alle difficoltà della comunità AI nel riprodurre i risultati all’avanguardia del reinforcement learning, dovute alla mancata divulgazione di dettagli tecnici da parte di grandi aziende come OpenAI e DeepSeek. Il reinforcement learning è diventato centrale per l’evoluzione dei Large Language Models (LLM), dotandoli di capacità di ragionamento avanzate necessarie per compiti complessi. Tuttavia, la comunità scientifica si scontra con notevoli sfide nel riprodurre le tecniche RL più avanzate, a causa della divulgazione incompleta dei dettagli chiave di addestramento da parte dei principali attori del settore. Questa opacità ha limitato i progressi della ricerca collaborativa e degli sforzi scientifici più ampi.

Il sistema raggiunge 50 punti nella difficile competizione matematica AIME 2024 utilizzando il modello base Qwen2.5-32B. A differenza dei lavori precedenti che omettevano dettagli di addestramento, DAPO introduce quattro tecniche chiave che rendono efficace il reinforcement learning su larga scala per gli LLM. Inoltre, i ricercatori hanno reso open-source il codice di addestramento, basato sul framework verl, insieme a un dataset curato e processato con attenzione.

Ciò che rende DAPO particolarmente impressionante è la sua efficienza. Supera il precedente stato dell’arte DeepSeek-R1-Zero-Qwen-32B utilizzando solo il 50% dei passaggi di addestramento. Questa efficienza deriva da quattro innovazioni fondamentali: La prima, “Clip-Higher”, affronta il problema del collasso dell’entropia, una situazione in cui i modelli si stabilizzano prematuramente su schemi di esplorazione limitati. Gestendo con attenzione il rapporto di clipping negli aggiornamenti delle policy, questa tecnica incoraggia una maggiore diversità nelle risposte del modello. “Dynamic Sampling” contrasta le inefficienze dell’addestramento filtrando dinamicamente i campioni in base alla loro utilità, garantendo così un segnale di gradiente più costante. Il “Token-level Policy Gradient Loss” offre un metodo di calcolo della loss più raffinato, enfatizzando aggiustamenti a livello di token piuttosto che di campione, per meglio adattarsi a sequenze di ragionamento di lunghezza variabile. Infine, “Overlong Reward Shaping” introduce una penalità controllata per risposte eccessivamente lunghe, guidando delicatamente i modelli verso ragionamenti più concisi ed efficienti.

Il rilascio di DAPO arriva in un momento di grande fermento per le innovazioni open-source nel reinforcement learning. Un altro progresso significativo è rappresentato da MiroMind-M1, una pipeline completamente open-source che copre dataset, modelli, codice di addestramento e script di valutazione, fissando nuovi standard di apertura e ragionamento matematico all’avanguardia nell’ecosistema dei modelli Qwen-2.5. MiroMind-M1 si basa sulla solida architettura Qwen-2.5, con miglioramenti mirati specificamente al ragionamento matematico.

L’impatto industriale di questi sviluppi è notevole: il settore del reinforcement learning è stimato oltre i 122 miliardi di dollari nel 2025. Le sue applicazioni spaziano dalla robotica ai veicoli autonomi, dall’ottimizzazione della supply chain alla sanità e al gaming, con casi d’uso in espansione man mano che la tecnologia matura.

Rendendo completamente trasparenti metodologie prima inaccessibili, DAPO e iniziative open-source simili stanno democratizzando le capacità avanzate dell’IA, permettendo a ricercatori, startup e aziende consolidate di costruire su queste innovazioni senza i vincoli dei sistemi proprietari.

Source:

Latest News