Dans une avancée majeure pour l’intelligence artificielle open source, des chercheurs de ByteDance et de l’Université Tsinghua ont dévoilé DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization), un système d’apprentissage par renforcement révolutionnaire qui atteint des capacités de raisonnement exceptionnelles tout en plaçant la transparence et l’accessibilité au cœur de sa démarche.
DAPO répond directement à la difficulté rencontrée par la communauté IA pour reproduire les résultats de pointe en apprentissage par renforcement, en raison de détails techniques dissimulés par de grands acteurs du secteur comme OpenAI et DeepSeek. L’apprentissage par renforcement est devenu central dans l’évolution des grands modèles de langage (LLM), leur conférant des capacités de raisonnement améliorées, essentielles pour des tâches complexes. Cependant, la communauté scientifique fait face à d’importants obstacles pour reproduire les techniques RL de pointe, du fait de la divulgation incomplète des détails clés d’entraînement par les acteurs majeurs. Ce manque de transparence freine l’avancée des efforts scientifiques et la recherche collaborative.
Le système atteint un score de 50 points lors de la compétition mathématique exigeante AIME 2024, en utilisant le modèle de base Qwen2.5-32B. Contrairement aux travaux antérieurs qui retiennent des détails d’entraînement, DAPO introduit quatre techniques clés qui rendent l’apprentissage par renforcement à grande échelle des LLM efficace. De plus, les chercheurs ont publié en open source leur code d’entraînement, basé sur le framework verl, ainsi qu’un jeu de données soigneusement sélectionné et traité.
Ce qui rend DAPO particulièrement impressionnant, c’est son efficacité. Il surpasse le précédent modèle de référence DeepSeek-R1-Zero-Qwen-32B tout en utilisant seulement 50 % des étapes d’entraînement. Cette efficacité repose sur quatre innovations majeures : La première, « Clip-Higher », s’attaque au problème de l’effondrement de l’entropie, lorsque les modèles se cantonnent prématurément à des schémas d’exploration limités. En gérant finement le ratio de clipping lors des mises à jour de la politique, cette technique favorise une plus grande diversité des sorties du modèle. « Dynamic Sampling » corrige les inefficacités de l’entraînement en filtrant dynamiquement les échantillons selon leur utilité, assurant ainsi un signal de gradient plus cohérent. La « Token-level Policy Gradient Loss » propose une méthode de calcul de la perte plus fine, en mettant l’accent sur des ajustements au niveau du token plutôt qu’au niveau de l’échantillon, afin de mieux gérer la variabilité des séquences de raisonnement. Enfin, « Overlong Reward Shaping » introduit une pénalité contrôlée pour les réponses excessivement longues, incitant les modèles à privilégier un raisonnement concis et efficace.
La sortie de DAPO intervient dans un contexte de multiplication des avancées open source en apprentissage par renforcement. Une autre innovation notable est MiroMind-M1, une chaîne de traitement entièrement open source, couvrant jeux de données, modèles, code d’entraînement et scripts d’évaluation, qui établit de nouveaux standards d’ouverture et de performance en raisonnement mathématique dans l’écosystème du modèle Qwen-2.5. MiroMind-M1 repose sur l’architecture robuste de Qwen-2.5, avec des améliorations spécifiquement conçues pour le raisonnement mathématique.
L’impact industriel de ces développements est considérable, le secteur de l’apprentissage par renforcement étant évalué à plus de 122 milliards de dollars en 2025. Ses applications couvrent la robotique, les véhicules autonomes, l’optimisation de la chaîne logistique, la santé et le jeu vidéo, avec des cas d’usage qui s’élargissent à mesure que la technologie mûrit.
En rendant totalement transparentes des méthodologies jusqu’alors inaccessibles, DAPO et d’autres initiatives open source démocratisent les capacités avancées de l’IA, permettant aux chercheurs, startups et entreprises établies de s’appuyer sur ces innovations sans les contraintes des systèmes propriétaires.