Des chercheurs ont développé une nouvelle génération de modèles d’IA capables d’ajuster dynamiquement leurs efforts de calcul en fonction de la complexité du problème, ce qui représente un changement majeur dans la façon dont l’intelligence artificielle aborde les tâches difficiles.
La technologie, illustrée par des modèles comme DeepSeek-R1 et la série o d’OpenAI, adopte ce que les développeurs appellent une « approche axée sur le raisonnement » qui privilégie une analyse approfondie plutôt qu’une reconnaissance rapide de motifs. DeepSeek-R1 est conçu selon cette méthodologie axée sur le raisonnement, ce qui le rend particulièrement adapté à la résolution de tâches complexes en science, en programmation et en mathématiques grâce à une inférence logique avancée et à la résolution de problèmes. Cette priorité donnée à la « réflexion avant la réponse » le rend particulièrement précieux pour les applications techniques.
Contrairement aux systèmes d’IA conventionnels, ces nouveaux modèles de raisonnement sont entraînés à « réfléchir plus longtemps » avant de répondre. Par exemple, o3 d’OpenAI peut décomposer des questions difficiles en étapes logiques, effectuer des calculs intermédiaires ou faire appel à des outils, puis produire des réponses bien fondées. En tant que modèles de raisonnement, ils vérifient efficacement leurs propres faits, ce qui aide à éviter les pièges qui font généralement trébucher les modèles standards. Bien qu’ils prennent quelques secondes à quelques minutes de plus pour arriver à une solution comparativement aux modèles non axés sur le raisonnement, ils sont généralement plus fiables dans des domaines comme la physique, la science et les mathématiques.
OpenAI a observé que l’apprentissage par renforcement à grande échelle présente la même tendance « plus de calcul = meilleure performance » que celle observée lors de l’entraînement des modèles précédents. En reprenant la voie de l’augmentation de l’échelle — cette fois-ci en apprentissage par renforcement — ils ont multiplié par dix la puissance de calcul à l’entraînement et le raisonnement au moment de l’inférence, avec des gains de performance clairs qui confirment que les modèles continuent de s’améliorer à mesure qu’on leur laisse le temps de réfléchir.
Ces modèles génèrent activement plusieurs pistes de solution lors de l’inférence, évaluant chacune à l’aide de modèles évaluateurs intégrés pour déterminer l’option la plus prometteuse. En entraînant l’évaluateur sur des données annotées par des experts, les développeurs s’assurent que les modèles développent une forte capacité à raisonner à travers des problèmes complexes et à étapes multiples. Cette caractéristique permet au modèle de juger son propre raisonnement, rapprochant ainsi les grands modèles linguistiques de la capacité de « penser » plutôt que de simplement répondre.
L’approche de DeepSeek combine le raisonnement en chaîne (« chain-of-thought ») avec l’apprentissage par renforcement, dans lequel un agent autonome apprend à accomplir une tâche par essais et erreurs sans instructions humaines. Cela remet en question l’hypothèse selon laquelle les modèles amélioreront leur capacité de raisonnement uniquement en s’entraînant sur des exemples annotés de comportements corrects. Comme l’a formulé un chercheur : « Peut-on simplement récompenser le modèle pour l’exactitude et le laisser découvrir lui-même la meilleure façon de penser? »
Les répercussions pour les applications concrètes sont profondes. Ces modèles pourraient transformer la façon dont l’IA aborde les problèmes complexes dans des domaines allant de la recherche scientifique et de l’ingénierie à la stratégie d’affaires et à la résolution créative de problèmes. En allouant des ressources informatiques proportionnellement à la difficulté de la tâche — tout comme les humains passent naturellement plus de temps sur les problèmes difficiles — ces systèmes promettent une performance plus fiable sur les défis intellectuels les plus exigeants auxquels l’humanité fait face.