DAPO : une avancée open source révolutionne le raisonnement de l’IA

Des chercheurs de ByteDance et de l’Université Tsinghua ont publié DAPO, un système d’apprentissage par renforcement entièrement open source qui atteint des capacités de raisonnement mathématique de pointe. Le système surpasse les modèles précédents tout en utilisant 50 % moins d’étapes d’entraînement et rend accessibles à la communauté scientifique des détails techniques jusqu’alors gardés secrets. Cette avancée comble le manque de transparence des systèmes avancés de raisonnement par IA, ouvrant la voie à une innovation et une reproductibilité accrues.

Dans une avancée majeure pour l’intelligence artificielle open source, des chercheurs de ByteDance et de l’Université Tsinghua ont dévoilé DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization), un système d’apprentissage par renforcement révolutionnaire qui atteint des capacités de raisonnement exceptionnelles tout en plaçant la transparence et l’accessibilité au cœur de sa démarche.

DAPO répond directement à la difficulté rencontrée par la communauté IA pour reproduire les résultats de pointe en apprentissage par renforcement, en raison de détails techniques dissimulés par de grands acteurs du secteur comme OpenAI et DeepSeek. L’apprentissage par renforcement est devenu central dans l’évolution des grands modèles de langage (LLM), leur conférant des capacités de raisonnement améliorées, essentielles pour des tâches complexes. Cependant, la communauté scientifique fait face à d’importants obstacles pour reproduire les techniques RL de pointe, du fait de la divulgation incomplète des détails clés d’entraînement par les acteurs majeurs. Ce manque de transparence freine l’avancée des efforts scientifiques et la recherche collaborative.

Le système atteint un score de 50 points lors de la compétition mathématique exigeante AIME 2024, en utilisant le modèle de base Qwen2.5-32B. Contrairement aux travaux antérieurs qui retiennent des détails d’entraînement, DAPO introduit quatre techniques clés qui rendent l’apprentissage par renforcement à grande échelle des LLM efficace. De plus, les chercheurs ont publié en open source leur code d’entraînement, basé sur le framework verl, ainsi qu’un jeu de données soigneusement sélectionné et traité.

Ce qui rend DAPO particulièrement impressionnant, c’est son efficacité. Il surpasse le précédent modèle de référence DeepSeek-R1-Zero-Qwen-32B tout en utilisant seulement 50 % des étapes d’entraînement. Cette efficacité repose sur quatre innovations majeures : La première, « Clip-Higher », s’attaque au problème de l’effondrement de l’entropie, lorsque les modèles se cantonnent prématurément à des schémas d’exploration limités. En gérant finement le ratio de clipping lors des mises à jour de la politique, cette technique favorise une plus grande diversité des sorties du modèle. « Dynamic Sampling » corrige les inefficacités de l’entraînement en filtrant dynamiquement les échantillons selon leur utilité, assurant ainsi un signal de gradient plus cohérent. La « Token-level Policy Gradient Loss » propose une méthode de calcul de la perte plus fine, en mettant l’accent sur des ajustements au niveau du token plutôt qu’au niveau de l’échantillon, afin de mieux gérer la variabilité des séquences de raisonnement. Enfin, « Overlong Reward Shaping » introduit une pénalité contrôlée pour les réponses excessivement longues, incitant les modèles à privilégier un raisonnement concis et efficace.

La sortie de DAPO intervient dans un contexte de multiplication des avancées open source en apprentissage par renforcement. Une autre innovation notable est MiroMind-M1, une chaîne de traitement entièrement open source, couvrant jeux de données, modèles, code d’entraînement et scripts d’évaluation, qui établit de nouveaux standards d’ouverture et de performance en raisonnement mathématique dans l’écosystème du modèle Qwen-2.5. MiroMind-M1 repose sur l’architecture robuste de Qwen-2.5, avec des améliorations spécifiquement conçues pour le raisonnement mathématique.

L’impact industriel de ces développements est considérable, le secteur de l’apprentissage par renforcement étant évalué à plus de 122 milliards de dollars en 2025. Ses applications couvrent la robotique, les véhicules autonomes, l’optimisation de la chaîne logistique, la santé et le jeu vidéo, avec des cas d’usage qui s’élargissent à mesure que la technologie mûrit.

En rendant totalement transparentes des méthodologies jusqu’alors inaccessibles, DAPO et d’autres initiatives open source démocratisent les capacités avancées de l’IA, permettant aux chercheurs, startups et entreprises établies de s’appuyer sur ces innovations sans les contraintes des systèmes propriétaires.

Source:

DAPO : une avancée open source révolutionne le raisonnement de l’IA

Latest News

GitHub Copilot atteint 20 millions d’utilisateurs et transforme les workflows des développeurs

Imagen 4 Ultra de Google grimpe à la troisième place du classement de la génération d’images par IA

xAI de Musk élargit Grok avec une IA vidéo et des compagnons virtuels

L’IA basée sur la physique de Moonvalley transforme les croquis en réalité cinématographique

Manus Déploie une Nuée de 100 Agents IA pour des Tâches de Recherche en Parallèle

Révolution de l’IA : une transformation de 40 milliards de dollars dans l’immobilier

Meta révolutionne l’interaction avec l’IA grâce à son assistant propulsé par Llama 4

Xiaomi dévoile un modèle vocal IA de nouvelle génération pour maisons intelligentes et voitures

Microsoft dévoile des agents IA pour lutter contre la crise de productivité au travail

OpenAI opère un virage vers l’open source alors que la concurrence redéfinit le paysage de l’IA

DAPO : une avancée open source révolutionne le raisonnement de l’IA

Related Articles

GitHub Copilot atteint 20 millions d’utilisateurs et transforme les workflows des développeurs

xAI de Musk élargit Grok avec une IA vidéo et des compagnons virtuels

Manus Déploie une Nuée de 100 Agents IA pour des Tâches de Recherche en Parallèle

Révolution de l’IA : une transformation de 40 milliards de dollars dans l’immobilier

Xiaomi dévoile un modèle vocal IA de nouvelle génération pour maisons intelligentes et voitures

Latest News

GitHub Copilot atteint 20 millions d’utilisateurs et transforme les workflows des développeurs

Imagen 4 Ultra de Google grimpe à la troisième place du classement de la génération d’images par IA

xAI de Musk élargit Grok avec une IA vidéo et des compagnons virtuels

L’IA basée sur la physique de Moonvalley transforme les croquis en réalité cinématographique

Manus Déploie une Nuée de 100 Agents IA pour des Tâches de Recherche en Parallèle

Révolution de l’IA : une transformation de 40 milliards de dollars dans l’immobilier

Meta révolutionne l’interaction avec l’IA grâce à son assistant propulsé par Llama 4

Xiaomi dévoile un modèle vocal IA de nouvelle génération pour maisons intelligentes et voitures

Microsoft dévoile des agents IA pour lutter contre la crise de productivité au travail

OpenAI opère un virage vers l’open source alors que la concurrence redéfinit le paysage de l’IA