DAPO : Une percée open source révolutionne le raisonnement de l’IA

Des chercheurs de ByteDance et de l’Université Tsinghua ont lancé DAPO, un système d’apprentissage par renforcement entièrement open source qui atteint des capacités de raisonnement mathématique de pointe. Ce système surpasse les modèles précédents tout en utilisant 50 % moins d’étapes d’entraînement et rend accessibles à la communauté de l’IA des détails techniques auparavant gardés secrets. Cette avancée comble le manque de transparence dans les systèmes de raisonnement avancés en IA, favorisant l’innovation et la reproductibilité à grande échelle.

Dans une avancée majeure pour l’intelligence artificielle open source, des chercheurs de ByteDance et de l’Université Tsinghua ont dévoilé DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization), un système d’apprentissage par renforcement novateur qui offre des capacités de raisonnement exceptionnelles tout en mettant l’accent sur la transparence et l’accessibilité.

DAPO répond directement à la difficulté rencontrée par la communauté de l’IA à reproduire les résultats de pointe en apprentissage par renforcement, en raison de détails techniques gardés confidentiels par des acteurs majeurs comme OpenAI et DeepSeek. L’apprentissage par renforcement est devenu central dans l’évolution des grands modèles de langage (LLM), leur conférant des capacités de raisonnement accrues pour des tâches complexes. Cependant, la communauté scientifique fait face à d’importants défis pour reproduire les techniques de pointe en raison d’un manque de divulgation complète des détails d’entraînement par les grandes entreprises du secteur. Cette opacité freine les efforts scientifiques et la recherche collaborative à grande échelle.

Le système atteint un score de 50 points à la compétition mathématique AIME 2024, en utilisant le modèle de base Qwen2.5-32B. Contrairement aux travaux précédents qui retiennent les détails d’entraînement, DAPO introduit quatre techniques clés qui rendent l’apprentissage par renforcement à grande échelle des LLM efficace. De plus, les chercheurs ont rendu public leur code d’entraînement, basé sur le cadre verl, ainsi qu’un jeu de données soigneusement sélectionné et traité.

Ce qui distingue particulièrement DAPO, c’est son efficacité. Il surpasse le précédent modèle de pointe DeepSeek-R1-Zero-Qwen-32B tout en n’utilisant que 50 % des étapes d’entraînement. Cette performance repose sur quatre innovations principales : La première, « Clip-Higher », s’attaque au problème de l’effondrement de l’entropie, où les modèles se limitent prématurément à des schémas d’exploration restreints. En gérant soigneusement le ratio de coupure lors de la mise à jour des politiques, cette technique favorise une plus grande diversité dans les sorties du modèle. « Dynamic Sampling » corrige les inefficacités d’entraînement en filtrant dynamiquement les échantillons selon leur utilité, assurant ainsi un signal de gradient plus cohérent. La « perte par gradient de politique au niveau du jeton » propose une méthode de calcul de la perte plus fine, axée sur les jetons plutôt que sur les échantillons, pour mieux s’adapter à la longueur variable des séquences de raisonnement. Enfin, le « modelage de récompense pour réponses trop longues » introduit une pénalité contrôlée pour les réponses excessivement longues, guidant le modèle vers un raisonnement plus concis et efficace.

La sortie de DAPO s’inscrit dans une vague de percées open source en apprentissage par renforcement. Une autre avancée notable est MiroMind-M1, une chaîne de développement entièrement open source couvrant jeux de données, modèles, code d’entraînement et scripts d’évaluation, qui établit de nouveaux standards d’ouverture et de raisonnement mathématique de pointe dans l’écosystème du modèle Qwen-2.5. MiroMind-M1 s’appuie sur l’architecture robuste de Qwen-2.5, avec des améliorations ciblées pour le raisonnement mathématique.

L’impact de ces développements sur l’industrie est considérable, le secteur de l’apprentissage par renforcement étant évalué à plus de 122 milliards $ en 2025. Les applications couvrent la robotique, les véhicules autonomes, l’optimisation de la chaîne d’approvisionnement, la santé et le jeu vidéo, avec des cas d’utilisation qui se multiplient à mesure que la technologie évolue.

En rendant totalement transparentes des méthodologies auparavant inaccessibles, DAPO et d’autres initiatives open source démocratisent les capacités avancées de l’IA, permettant aux chercheurs, startups et entreprises établies de s’appuyer sur ces innovations sans les contraintes des systèmes propriétaires.

Source:

DAPO : Une percée open source révolutionne le raisonnement de l’IA

Latest News

GitHub Copilot atteint 20 millions d’utilisateurs et transforme les flux de travail des développeurs

Imagen 4 Ultra de Google grimpe à la troisième place du classement de la génération d’images par IA

xAI de Musk élargit Grok avec l’IA vidéo et des compagnons virtuels

L’IA axée sur la physique de Moonvalley transforme les croquis en réalité cinématographique

Manus déploie une armée de 100 agents IA pour des recherches parallèles

Révolution de l’IA : une transformation de 40 milliards $ dans l’immobilier

Meta révolutionne l’interaction avec l’IA grâce à son assistant propulsé par Llama 4

Xiaomi dévoile un modèle vocal IA de nouvelle génération pour maisons intelligentes et voitures

Microsoft dévoile des agents IA pour contrer la crise de productivité au travail

OpenAI se tourne vers l’open source alors que la concurrence redéfinit le paysage de l’IA

DAPO : Une percée open source révolutionne le raisonnement de l’IA

Related Articles

GitHub Copilot atteint 20 millions d’utilisateurs et transforme les flux de travail des développeurs

xAI de Musk élargit Grok avec l’IA vidéo et des compagnons virtuels

Manus déploie une armée de 100 agents IA pour des recherches parallèles

Révolution de l’IA : une transformation de 40 milliards $ dans l’immobilier

Xiaomi dévoile un modèle vocal IA de nouvelle génération pour maisons intelligentes et voitures

Latest News

GitHub Copilot atteint 20 millions d’utilisateurs et transforme les flux de travail des développeurs

Imagen 4 Ultra de Google grimpe à la troisième place du classement de la génération d’images par IA

xAI de Musk élargit Grok avec l’IA vidéo et des compagnons virtuels

L’IA axée sur la physique de Moonvalley transforme les croquis en réalité cinématographique

Manus déploie une armée de 100 agents IA pour des recherches parallèles

Révolution de l’IA : une transformation de 40 milliards $ dans l’immobilier

Meta révolutionne l’interaction avec l’IA grâce à son assistant propulsé par Llama 4

Xiaomi dévoile un modèle vocal IA de nouvelle génération pour maisons intelligentes et voitures

Microsoft dévoile des agents IA pour contrer la crise de productivité au travail

OpenAI se tourne vers l’open source alors que la concurrence redéfinit le paysage de l’IA