Dans une avancée majeure pour l’intelligence artificielle open source, des chercheurs de ByteDance et de l’Université Tsinghua ont dévoilé DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization), un système d’apprentissage par renforcement novateur qui offre des capacités de raisonnement exceptionnelles tout en mettant l’accent sur la transparence et l’accessibilité.
DAPO répond directement à la difficulté rencontrée par la communauté de l’IA à reproduire les résultats de pointe en apprentissage par renforcement, en raison de détails techniques gardés confidentiels par des acteurs majeurs comme OpenAI et DeepSeek. L’apprentissage par renforcement est devenu central dans l’évolution des grands modèles de langage (LLM), leur conférant des capacités de raisonnement accrues pour des tâches complexes. Cependant, la communauté scientifique fait face à d’importants défis pour reproduire les techniques de pointe en raison d’un manque de divulgation complète des détails d’entraînement par les grandes entreprises du secteur. Cette opacité freine les efforts scientifiques et la recherche collaborative à grande échelle.
Le système atteint un score de 50 points à la compétition mathématique AIME 2024, en utilisant le modèle de base Qwen2.5-32B. Contrairement aux travaux précédents qui retiennent les détails d’entraînement, DAPO introduit quatre techniques clés qui rendent l’apprentissage par renforcement à grande échelle des LLM efficace. De plus, les chercheurs ont rendu public leur code d’entraînement, basé sur le cadre verl, ainsi qu’un jeu de données soigneusement sélectionné et traité.
Ce qui distingue particulièrement DAPO, c’est son efficacité. Il surpasse le précédent modèle de pointe DeepSeek-R1-Zero-Qwen-32B tout en n’utilisant que 50 % des étapes d’entraînement. Cette performance repose sur quatre innovations principales : La première, « Clip-Higher », s’attaque au problème de l’effondrement de l’entropie, où les modèles se limitent prématurément à des schémas d’exploration restreints. En gérant soigneusement le ratio de coupure lors de la mise à jour des politiques, cette technique favorise une plus grande diversité dans les sorties du modèle. « Dynamic Sampling » corrige les inefficacités d’entraînement en filtrant dynamiquement les échantillons selon leur utilité, assurant ainsi un signal de gradient plus cohérent. La « perte par gradient de politique au niveau du jeton » propose une méthode de calcul de la perte plus fine, axée sur les jetons plutôt que sur les échantillons, pour mieux s’adapter à la longueur variable des séquences de raisonnement. Enfin, le « modelage de récompense pour réponses trop longues » introduit une pénalité contrôlée pour les réponses excessivement longues, guidant le modèle vers un raisonnement plus concis et efficace.
La sortie de DAPO s’inscrit dans une vague de percées open source en apprentissage par renforcement. Une autre avancée notable est MiroMind-M1, une chaîne de développement entièrement open source couvrant jeux de données, modèles, code d’entraînement et scripts d’évaluation, qui établit de nouveaux standards d’ouverture et de raisonnement mathématique de pointe dans l’écosystème du modèle Qwen-2.5. MiroMind-M1 s’appuie sur l’architecture robuste de Qwen-2.5, avec des améliorations ciblées pour le raisonnement mathématique.
L’impact de ces développements sur l’industrie est considérable, le secteur de l’apprentissage par renforcement étant évalué à plus de 122 milliards $ en 2025. Les applications couvrent la robotique, les véhicules autonomes, l’optimisation de la chaîne d’approvisionnement, la santé et le jeu vidéo, avec des cas d’utilisation qui se multiplient à mesure que la technologie évolue.
En rendant totalement transparentes des méthodologies auparavant inaccessibles, DAPO et d’autres initiatives open source démocratisent les capacités avancées de l’IA, permettant aux chercheurs, startups et entreprises établies de s’appuyer sur ces innovations sans les contraintes des systèmes propriétaires.