menu
close

OpenAI dévoile la famille GPT-4.1 pour dominer le marché de la programmation IA

OpenAI a lancé une nouvelle famille de modèles appelée GPT-4.1, comprenant des versions standard, mini et nano, toutes optimisées pour la programmation et le suivi d'instructions avec une fenêtre de contexte massive d'un million de jetons. Ces modèles, accessibles uniquement via l'API, surpassent les offres précédentes d'OpenAI sur les tests de programmation, le modèle phare GPT-4.1 affichant une amélioration de 21 % par rapport à GPT-4o. Cette sortie survient alors que la concurrence s'intensifie avec Gemini 2.5 Pro de Google et Claude 3.7 Sonnet d'Anthropic, qui cherchent également à s'imposer dans le domaine de la programmation IA.
OpenAI dévoile la famille GPT-4.1 pour dominer le marché de la programmation IA

OpenAI a lancé une nouvelle famille de modèles appelée GPT-4.1, comprenant GPT-4.1, GPT-4.1 mini et GPT-4.1 nano, qui excellent tous en programmation et dans le suivi d'instructions. Dévoilés le 14 avril, ces nouveaux modèles sont disponibles exclusivement via l'interface de programmation d'applications (API) d'OpenAI et surpassent le modèle GPT-4o, le plus avancé de la société, sur tous les plans.

Les modèles offrent une meilleure compréhension du contexte, supportant jusqu'à un million de jetons (environ 750 000 mots) et intègrent des connaissances actualisées jusqu'en juin 2024. Sur SWE-bench Verified, une mesure des compétences en génie logiciel dans des situations réelles, GPT-4.1 accomplit 54,6 % des tâches, contre 33,2 % pour GPT-4o. Cela reflète des progrès dans la capacité du modèle à explorer des dépôts de code, terminer des tâches et produire du code qui s'exécute et passe les tests.

« Nous avons optimisé GPT-4.1 pour une utilisation concrète, en nous basant sur des retours directs afin d'améliorer les aspects qui comptent le plus pour les développeurs : programmation front-end, moins de modifications inutiles, respect fiable des formats, respect de la structure et de l'ordre des réponses, utilisation cohérente des outils, et plus encore », a expliqué un porte-parole d'OpenAI. « Ces améliorations permettent aux développeurs de créer des agents nettement meilleurs pour les tâches réelles de génie logiciel. »

Les variantes plus petites offrent différents compromis entre performance et coût. GPT-4.1 mini et nano sont plus efficaces et rapides, au prix d'une légère perte de précision, OpenAI affirmant que GPT-4.1 nano est son modèle le plus rapide et le moins cher à ce jour. Les prix varient considérablement selon la gamme : GPT-4.1 coûte 2 $ par million de jetons en entrée et 8 $ par million de jetons en sortie, GPT-4.1 mini coûte 0,40 $/million de jetons en entrée et 1,60 $/million de jetons en sortie, et GPT-4.1 nano seulement 0,10 $/million de jetons en entrée et 0,40 $/million de jetons en sortie.

Au-delà de la programmation, OpenAI a évalué GPT-4.1 avec Video-MME, qui mesure la capacité d'un modèle à comprendre le contenu vidéo. GPT-4.1 a atteint une précision de 72 % dans la catégorie des vidéos longues sans sous-titres, se hissant en tête de ce classement.

Cette sortie s'inscrit dans les ambitions plus larges d'OpenAI dans le domaine de la programmation. La directrice financière d'OpenAI, Sarah Friar, a récemment évoqué la vision de l'entreprise de créer un « ingénieur logiciel agentique » capable de programmer des applications complètes de bout en bout. « Il peut littéralement construire une application pour vous — et non seulement la construire, mais aussi effectuer son assurance qualité, ses tests de bogues et la rédaction de sa documentation », a déclaré Friar.

Le secteur des modèles d'IA pour la programmation devient de plus en plus compétitif. Gemini 2.5 Pro de Google occupe actuellement la première place du classement SWE-bench Verified avec 63,8 %, tandis que Claude 3.7 Sonnet d'Anthropic obtient 62,3 % en mode standard et jusqu'à 70,3 % en mode réflexion étendue. Malgré ces résultats impressionnants, OpenAI reconnaît que même les meilleurs modèles actuels peinent avec des tâches qui ne poseraient aucun problème à des experts. De nombreuses études ont montré que les modèles générateurs de code échouent souvent à corriger, et même introduisent, des vulnérabilités de sécurité et des bogues. GPT-4.1 devient également moins fiable à mesure qu'il doit traiter un plus grand nombre de jetons en entrée.

Source: TechCrunch

Latest News