menu
close

OpenAI dévoile la famille GPT-4.1 pour dominer le marché de la programmation IA

OpenAI a lancé une nouvelle famille de modèles baptisée GPT-4.1, comprenant des versions standard, mini et nano, toutes optimisées pour la programmation et le suivi d'instructions avec une fenêtre de contexte massive d'un million de tokens. Ces modèles, exclusivement accessibles via l'API, surpassent les précédentes offres d'OpenAI sur les benchmarks de codage, avec le modèle phare GPT-4.1 affichant une amélioration de 21 % par rapport à GPT-4o. Cette sortie intervient alors que la concurrence s'intensifie avec Gemini 2.5 Pro de Google et Claude 3.7 Sonnet d'Anthropic, qui cherchent également à s'imposer dans le domaine de la programmation assistée par IA.
OpenAI dévoile la famille GPT-4.1 pour dominer le marché de la programmation IA

OpenAI a lancé une nouvelle famille de modèles appelée GPT-4.1, comprenant GPT-4.1, GPT-4.1 mini et GPT-4.1 nano, tous excellant dans la programmation et le suivi d'instructions. Sortis le 14 avril, ces nouveaux modèles sont disponibles exclusivement via l'interface de programmation d'applications (API) d'OpenAI et surpassent le modèle GPT-4o, jusqu'alors le plus avancé de la société, sur tous les plans.

Les modèles offrent une compréhension contextuelle améliorée, prenant en charge jusqu'à un million de tokens (environ 750 000 mots) et disposent de connaissances actualisées jusqu'en juin 2024. Sur SWE-bench Verified, une mesure des compétences en ingénierie logicielle dans des situations réelles, GPT-4.1 accomplit 54,6 % des tâches, contre 33,2 % pour GPT-4o. Cela reflète des progrès dans la capacité du modèle à explorer des dépôts de code, terminer des tâches et produire du code qui s'exécute et passe les tests.

« Nous avons optimisé GPT-4.1 pour une utilisation concrète, en nous appuyant sur des retours directs afin d'améliorer les aspects qui comptent le plus pour les développeurs : développement frontend, réduction des modifications superflues, respect fiable des formats, structuration et ordonnancement des réponses, utilisation cohérente des outils, et bien plus encore », a expliqué un porte-parole d'OpenAI. « Ces améliorations permettent aux développeurs de créer des agents nettement plus performants sur des tâches réelles d'ingénierie logicielle. »

Les variantes plus petites offrent différents compromis entre performance et coût. GPT-4.1 mini et nano sont plus efficaces et rapides, au détriment d'une légère perte de précision, OpenAI précisant que GPT-4.1 nano est son modèle le plus rapide et le moins cher à ce jour. Les tarifs varient considérablement selon la gamme : GPT-4.1 coûte 2 $ par million de tokens en entrée et 8 $ par million de tokens en sortie, GPT-4.1 mini est à 0,40 $/million de tokens en entrée et 1,60 $/million de tokens en sortie, et GPT-4.1 nano seulement 0,10 $/million de tokens en entrée et 0,40 $/million de tokens en sortie.

Au-delà de la programmation, OpenAI a évalué GPT-4.1 avec Video-MME, qui mesure la capacité d'un modèle à comprendre le contenu des vidéos. GPT-4.1 a atteint 72 % de précision dans la catégorie « vidéos longues sans sous-titres », se hissant en tête de ce benchmark.

Cette sortie s'inscrit dans la stratégie plus large d'OpenAI dans le domaine de la programmation. Sarah Friar, directrice financière d'OpenAI, a récemment évoqué la vision de l'entreprise de créer un « ingénieur logiciel agentique » capable de programmer des applications complètes de bout en bout. « Il peut littéralement créer une application pour vous — et pas seulement la construire, mais aussi assurer son contrôle qualité, ses tests de bugs et la rédaction de sa documentation », a déclaré Friar.

Le secteur des modèles d'IA dédiés à la programmation devient de plus en plus concurrentiel. Gemini 2.5 Pro de Google occupe actuellement la première place du benchmark SWE-bench Verified avec 63,8 %, tandis que Claude 3.7 Sonnet d'Anthropic atteint 62,3 % en mode standard et jusqu'à 70,3 % en mode réflexion étendue. Malgré ces performances impressionnantes, OpenAI reconnaît que même les meilleurs modèles actuels peinent sur des tâches qui ne poseraient aucun problème à des experts humains. De nombreuses études ont montré que les modèles générant du code échouent souvent à corriger, voire introduisent, des failles de sécurité et des bugs. GPT-4.1 devient également moins fiable à mesure qu'il doit traiter un grand nombre de tokens en entrée.

Source: TechCrunch

Latest News