L’assistant IA du MIT améliore les capacités de résolution de problèmes des modèles de langage

Des chercheurs du MIT ont mis au point CodeSteer, un assistant intelligent qui guide les grands modèles de langage à alterner entre la génération de texte et de code jusqu’à ce qu’ils répondent correctement à des requêtes complexes. Ce système a augmenté l’exactitude des modèles sur des tâches symboliques comme les problèmes mathématiques et le raisonnement spatial de plus de 30 %, permettant à des modèles moins sophistiqués de surpasser des modèles plus avancés. Cette percée pourrait améliorer considérablement les capacités de résolution de problèmes de l’IA pour des tâches complexes en robotique, gestion de la chaîne d’approvisionnement et d’autres domaines nécessitant un raisonnement computationnel précis.

Les grands modèles de langage (LLM) excellent à comprendre le contexte et à fournir des réponses logiques par le raisonnement textuel. Toutefois, ils éprouvent souvent des difficultés avec des tâches computationnelles qui seraient mieux résolues à l’aide de code, comme comparer des nombres décimaux ou résoudre des problèmes d’optimisation.

Pour pallier cette limite, des chercheurs du MIT ont développé CodeSteer, un assistant intelligent qui agit comme un coach pour les grands modèles de langage, les guidant à alterner entre la génération de texte et de code jusqu’à ce qu’ils trouvent la bonne réponse à une requête.

« Nous nous sommes inspirés des humains. Dans le sport, un entraîneur n’est peut-être pas meilleur que la vedette de l’équipe, mais il peut tout de même offrir des suggestions utiles pour guider l’athlète. Cette méthode de guidage fonctionne aussi pour les LLM », explique Yongchao Chen, étudiant diplômé à Harvard et au MIT ayant participé au projet.

CodeSteer, lui-même un LLM plus petit ajusté à partir du modèle Llama-3-8B, examine la requête et détermine si le texte ou le code est plus approprié pour résoudre le problème. Il génère ensuite des invites pour le grand LLM, le guidant vers la méthode adéquate. Si la réponse n’est pas correcte, CodeSteer continue de solliciter le LLM pour essayer différentes approches jusqu’à obtenir la bonne solution.

Les chercheurs ont constaté qu’en augmentant GPT-4o avec CodeSteer, l’exactitude sur les tâches symboliques augmentait de plus de 30 %, faisant passer le score de performance moyen de 53,3 à 86,4 sur 37 tâches. Cette amélioration lui a permis de surpasser même des modèles plus avancés comme l’o1 d’OpenAI (82,7) et DeepSeek R1 (76,8). Fait remarquable, CodeSteer a aussi démontré une grande généralisabilité, offrant un gain de performance moyen de 41,8 % lorsqu’il est appliqué à d’autres modèles comme Claude, Mistral et GPT-3.5.

Pour développer et tester CodeSteer, les chercheurs ont créé SymBench, un banc d’essai complet comprenant 37 tâches symboliques de complexité variable. Ces tâches couvrent les mathématiques, le raisonnement spatial, la logique, le raisonnement d’ordre et les problèmes d’optimisation.

Cette avancée pourrait améliorer considérablement les capacités de résolution de problèmes de l’IA pour des tâches complexes difficiles à résoudre uniquement par le raisonnement textuel, comme générer des trajectoires pour des robots dans des environnements incertains ou planifier des expéditions dans des chaînes d’approvisionnement internationales.

« En augmentant un LLM avec la capacité d’utiliser intelligemment le codage, on peut prendre un modèle déjà très performant et améliorer encore ses résultats », souligne Chen. Les chercheurs travaillent maintenant à optimiser CodeSteer pour accélérer son processus d’invites itératives et explorent comment ajuster un modèle unifié capable d’alterner entre le raisonnement textuel et la génération de code sans dépendre d’un assistant distinct.

L’assistant IA du MIT améliore les capacités de résolution de problèmes des modèles de langage

Latest News

OpenAI unifie ses outils d’IA avec ChatGPT Agent pour des tâches autonomes

OpenAI transformera ChatGPT en plateforme d’achats avec le paiement Shopify

L’automatisation par l’IA stimule la croissance de Tech Mahindra malgré les vents contraires dans le secteur des TI

xAI lance des compagnons IA sexualisés en pleine entente avec le Pentagone

L’IA de Google passe des appels téléphoniques à votre place

Le laboratoire Thinking Machines de Murati obtient 2 G$ pour révolutionner l’IA

S&P Global dévoile des métadonnées prêtes pour l’IA afin de transformer l’analytique financière

La Fed adopte l’IA pour la recherche tout en étudiant son impact économique

AWS dévoile un système de refroidissement sur mesure pour les puces IA de prochaine génération

Le MIT identifie les obstacles à l’ingénierie logicielle propulsée par l’IA

L’assistant IA du MIT améliore les capacités de résolution de problèmes des modèles de langage

Related Articles

OpenAI unifie ses outils d’IA avec ChatGPT Agent pour des tâches autonomes

OpenAI transformera ChatGPT en plateforme d’achats avec le paiement Shopify

L’automatisation par l’IA stimule la croissance de Tech Mahindra malgré les vents contraires dans le secteur des TI

xAI lance des compagnons IA sexualisés en pleine entente avec le Pentagone

La Fed adopte l’IA pour la recherche tout en étudiant son impact économique

Latest News

OpenAI unifie ses outils d’IA avec ChatGPT Agent pour des tâches autonomes

OpenAI transformera ChatGPT en plateforme d’achats avec le paiement Shopify

L’automatisation par l’IA stimule la croissance de Tech Mahindra malgré les vents contraires dans le secteur des TI

xAI lance des compagnons IA sexualisés en pleine entente avec le Pentagone

L’IA de Google passe des appels téléphoniques à votre place

Le laboratoire Thinking Machines de Murati obtient 2 G$ pour révolutionner l’IA

S&P Global dévoile des métadonnées prêtes pour l’IA afin de transformer l’analytique financière

La Fed adopte l’IA pour la recherche tout en étudiant son impact économique

AWS dévoile un système de refroidissement sur mesure pour les puces IA de prochaine génération

Le MIT identifie les obstacles à l’ingénierie logicielle propulsée par l’IA