OpenAI heeft een nieuwe familie van modellen gelanceerd onder de naam GPT-4.1, waaronder GPT-4.1, GPT-4.1 mini en GPT-4.1 nano, die allemaal uitblinken in coderen en het opvolgen van instructies. Deze nieuwe modellen, uitgebracht op 14 april, zijn exclusief beschikbaar via de application programming interface (API) van OpenAI en presteren op alle vlakken beter dan het meest geavanceerde GPT-4o-model van het bedrijf.
De modellen beschikken over verbeterd contextbegrip, ondersteunen tot 1 miljoen tokens (ongeveer 750.000 woorden) en zijn voorzien van geactualiseerde kennis tot juni 2024. Op SWE-bench Verified, een maatstaf voor echte software-engineeringvaardigheden, voltooit GPT-4.1 54,6% van de taken, tegenover 33,2% voor GPT-4o. Dit weerspiegelt verbeteringen in het vermogen van het model om code-repositories te verkennen, taken af te ronden en code te genereren die zowel uitvoerbaar is als de tests doorstaat.
"We hebben GPT-4.1 geoptimaliseerd voor praktisch gebruik op basis van directe feedback, om te verbeteren op punten die ontwikkelaars het belangrijkst vinden: frontend-codering, minder overbodige aanpassingen, betrouwbare formatopvolging, naleving van responsstructuur en volgorde, consistent gebruik van tools en meer," aldus een woordvoerder van OpenAI. "Deze verbeteringen stellen ontwikkelaars in staat om agents te bouwen die aanzienlijk beter zijn in echte software-engineeringtaken."
De kleinere varianten bieden verschillende afwegingen tussen prestaties en kosten. GPT-4.1 mini en nano zijn efficiënter en sneller, met een lichte concessie op nauwkeurigheid. Volgens OpenAI is GPT-4.1 nano het snelste en goedkoopste model ooit. De prijzen verschillen aanzienlijk: GPT-4.1 kost $2 per miljoen inputtokens en $8 per miljoen outputtokens, GPT-4.1 mini kost $0,40 per miljoen inputtokens en $1,60 per miljoen outputtokens, en GPT-4.1 nano slechts $0,10 per miljoen inputtokens en $0,40 per miljoen outputtokens.
Bij evaluaties buiten het coderen heeft OpenAI GPT-4.1 getest met Video-MME, dat het vermogen van een model meet om inhoud in video's te begrijpen. GPT-4.1 behaalde 72% nauwkeurigheid in de categorie "lange video's zonder ondertiteling" en claimde daarmee de toppositie in deze benchmark.
Deze release sluit aan bij de bredere ambities van OpenAI op het gebied van coderen. OpenAI-CFO Sarah Friar besprak onlangs de visie van het bedrijf om een "agentische software engineer" te creëren die volledige apps van begin tot eind kan programmeren. "Het kan letterlijk een app voor je bouwen — en niet alleen bouwen, maar ook zelf kwaliteitscontrole, bugtesten en documentatie schrijven," aldus Friar.
De markt voor AI-codingmodellen wordt steeds competitiever. Google's Gemini 2.5 Pro voert momenteel de SWE-bench Verified-benchmark aan met 63,8%, terwijl Anthropic's Claude 3.7 Sonnet 62,3% scoort in standaardmodus en tot 70,3% in extended thinking-modus. Ondanks deze indrukwekkende benchmarks erkent OpenAI dat zelfs de beste modellen van vandaag moeite hebben met taken waar experts geen problemen mee zouden hebben. Uit veel studies blijkt dat codegenererende modellen vaak falen bij het oplossen, en zelfs introduceren, van beveiligingslekken en bugs. GPT-4.1 wordt ook minder betrouwbaar naarmate het meer inputtokens moet verwerken.