Le coach IA du MIT améliore les capacités de résolution de problèmes des modèles de langage

Des chercheurs du MIT ont développé CodeSteer, un assistant intelligent qui guide les grands modèles de langage à alterner entre la génération de texte et de code jusqu'à ce qu'ils répondent correctement à des requêtes complexes. Le système a augmenté de plus de 30 % la précision des LLM sur des tâches symboliques telles que les problèmes mathématiques et le raisonnement spatial, permettant à des modèles moins sophistiqués de surpasser des modèles plus avancés. Cette avancée pourrait considérablement améliorer les capacités de résolution de problèmes de l'IA pour des tâches complexes en robotique, gestion de la chaîne d'approvisionnement et d'autres domaines nécessitant un raisonnement computationnel précis.

Les grands modèles de langage (LLM) excellent dans la compréhension du contexte et la fourniture de réponses logiques grâce au raisonnement textuel. Cependant, ils rencontrent souvent des difficultés avec des tâches computationnelles qui seraient mieux résolues par du code, comme comparer des nombres décimaux ou résoudre des problèmes d'optimisation.

Pour pallier cette limitation, des chercheurs du MIT ont mis au point CodeSteer, un assistant intelligent qui agit comme un coach pour les grands modèles de langage, les guidant à alterner entre la génération de texte et de code jusqu'à ce qu'ils répondent correctement à une requête.

« Nous nous sommes inspirés des humains. Dans le sport, un entraîneur n'est peut-être pas meilleur que la star de l'équipe, mais il peut tout de même donner des conseils utiles pour guider l'athlète. Cette méthode d'encadrement fonctionne aussi pour les LLM », explique Yongchao Chen, doctorant à Harvard et au MIT ayant travaillé sur le projet.

CodeSteer, lui-même un LLM plus petit affiné à partir du modèle Llama-3-8B, examine une requête et détermine si le texte ou le code serait plus adapté pour résoudre le problème. Il génère ensuite des instructions pour le grand LLM, le guidant vers la méthode appropriée. Si la réponse n'est pas correcte, CodeSteer continue de solliciter le LLM pour qu'il essaie différentes approches jusqu'à obtenir la bonne solution.

Les chercheurs ont constaté qu'en associant GPT-4o à CodeSteer, la précision sur les tâches symboliques augmentait de plus de 30 %, faisant passer le score de performance moyen de 53,3 à 86,4 sur 37 tâches. Cette amélioration lui a permis de surpasser des modèles encore plus avancés comme l'o1 d'OpenAI (82,7) et DeepSeek R1 (76,8). Fait remarquable, CodeSteer a également démontré une forte généralisation, offrant un gain de performance moyen de 41,8 % lorsqu'il est appliqué à d'autres modèles tels que Claude, Mistral et GPT-3.5.

Pour développer et tester CodeSteer, les chercheurs ont créé SymBench, un benchmark complet comprenant 37 tâches symboliques à complexité ajustable. Ces tâches couvrent les mathématiques, le raisonnement spatial, la logique, le raisonnement d'ordre et les problèmes d'optimisation.

Cette avancée pourrait considérablement améliorer les capacités de résolution de problèmes de l'IA pour des tâches complexes difficiles à résoudre par le seul raisonnement textuel, comme la génération de trajectoires pour des robots en environnement incertain ou la planification des expéditions dans les chaînes d'approvisionnement internationales.

« En dotant un LLM de la capacité à utiliser intelligemment le codage, nous pouvons prendre un modèle déjà très performant et améliorer encore ses résultats », souligne Chen. Les chercheurs travaillent désormais à optimiser CodeSteer pour accélérer son processus itératif de sollicitation et explorent comment affiner un modèle unifié capable d'alterner entre raisonnement textuel et génération de code sans dépendre d'un assistant séparé.

Le coach IA du MIT améliore les capacités de résolution de problèmes des modèles de langage

Latest News

OpenAI unifie ses outils d’IA avec ChatGPT Agent pour des tâches autonomes

OpenAI va transformer ChatGPT en plateforme d’achats avec le paiement Shopify

L’automatisation par l’IA stimule la croissance de Tech Mahindra malgré les vents contraires du secteur IT

xAI lance des compagnons IA sexualisés en pleine signature d’un contrat avec le Pentagone

L’IA de Google passe des appels téléphoniques à votre place

Thinking Machines Lab de Murati lève 2 milliards de dollars pour révolutionner l’IA

S&P Global dévoile des métadonnées prêtes pour l’IA afin de transformer l’analyse financière

La Fed adopte l’IA pour la recherche tout en étudiant son impact économique

AWS dévoile un système de refroidissement sur mesure pour les puces IA de nouvelle génération

Le MIT identifie les obstacles à l’ingénierie logicielle pilotée par l’IA

Le coach IA du MIT améliore les capacités de résolution de problèmes des modèles de langage

Related Articles

OpenAI unifie ses outils d’IA avec ChatGPT Agent pour des tâches autonomes

OpenAI va transformer ChatGPT en plateforme d’achats avec le paiement Shopify

L’automatisation par l’IA stimule la croissance de Tech Mahindra malgré les vents contraires du secteur IT

xAI lance des compagnons IA sexualisés en pleine signature d’un contrat avec le Pentagone

La Fed adopte l’IA pour la recherche tout en étudiant son impact économique

Latest News

OpenAI unifie ses outils d’IA avec ChatGPT Agent pour des tâches autonomes

OpenAI va transformer ChatGPT en plateforme d’achats avec le paiement Shopify

L’automatisation par l’IA stimule la croissance de Tech Mahindra malgré les vents contraires du secteur IT

xAI lance des compagnons IA sexualisés en pleine signature d’un contrat avec le Pentagone

L’IA de Google passe des appels téléphoniques à votre place

Thinking Machines Lab de Murati lève 2 milliards de dollars pour révolutionner l’IA

S&P Global dévoile des métadonnées prêtes pour l’IA afin de transformer l’analyse financière

La Fed adopte l’IA pour la recherche tout en étudiant son impact économique

AWS dévoile un système de refroidissement sur mesure pour les puces IA de nouvelle génération

Le MIT identifie les obstacles à l’ingénierie logicielle pilotée par l’IA