OpenAI hat eine neue Modellfamilie namens GPT-4.1 auf den Markt gebracht, darunter GPT-4.1, GPT-4.1 mini und GPT-4.1 nano, die sich alle durch herausragende Fähigkeiten im Programmieren und im Befolgen von Anweisungen auszeichnen. Die am 14. April veröffentlichten Modelle sind ausschließlich über die Programmierschnittstelle (API) von OpenAI verfügbar und übertreffen das bisher fortschrittlichste Modell GPT-4o in allen Bereichen.
Die Modelle bieten ein verbessertes Kontextverständnis, unterstützen bis zu 1 Million Tokens (etwa 750.000 Wörter) und verfügen über aktualisiertes Wissen bis Juni 2024. Im SWE-bench Verified, einem Maßstab für reale Softwareentwicklungsfähigkeiten, erledigt GPT-4.1 54,6 % der Aufgaben, verglichen mit 33,2 % bei GPT-4o. Dies spiegelt Verbesserungen in der Fähigkeit des Modells wider, Code-Repositories zu durchsuchen, Aufgaben abzuschließen und lauffähigen sowie getesteten Code zu produzieren.
„Wir haben GPT-4.1 für den Praxiseinsatz auf Basis direkter Rückmeldungen optimiert, um in den Bereichen besser zu werden, die Entwicklern am wichtigsten sind: Frontend-Programmierung, weniger unnötige Änderungen, zuverlässiges Einhalten von Formaten, Beachtung von Antwortstruktur und -reihenfolge, konsistente Tool-Nutzung und mehr“, erklärte ein OpenAI-Sprecher. „Diese Verbesserungen ermöglichen es Entwicklern, Agenten zu bauen, die bei realen Softwareentwicklungsaufgaben deutlich besser abschneiden.“
Die kleineren Varianten bieten unterschiedliche Kompromisse zwischen Leistung und Kosten. GPT-4.1 mini und nano sind effizienter und schneller, allerdings auf Kosten gewisser Genauigkeit. OpenAI bezeichnet GPT-4.1 nano als sein bislang schnellstes und günstigstes Modell. Die Preise variieren deutlich: GPT-4.1 kostet 2 US-Dollar pro Million Eingabe-Tokens und 8 US-Dollar pro Million Ausgabe-Tokens, GPT-4.1 mini liegt bei 0,40 US-Dollar/Million Eingabe-Tokens und 1,60 US-Dollar/Million Ausgabe-Tokens, während GPT-4.1 nano nur 0,10 US-Dollar/Million Eingabe-Tokens und 0,40 US-Dollar/Million Ausgabe-Tokens kostet.
Auch jenseits der Programmierung wurde GPT-4.1 getestet, etwa mit Video-MME, einem Maßstab für das Verständnis von Videoinhalten. GPT-4.1 erreichte 72 % Genauigkeit in der Kategorie „lange Videos ohne Untertitel“ und sicherte sich damit den Spitzenplatz in diesem Benchmark.
Diese Veröffentlichung steht im Einklang mit OpenAIs umfassenderen Ambitionen im Coding-Bereich. OpenAI-CFO Sarah Friar sprach kürzlich über die Vision des Unternehmens, einen „agentischen Softwareentwickler“ zu schaffen, der komplette Apps von Anfang bis Ende programmieren kann. „Er kann buchstäblich eine App für Sie bauen – und nicht nur das, sondern auch eigene Qualitätssicherung, Bug-Tests und Dokumentation übernehmen“, sagte Friar.
Der Markt für KI-Modelle zur Programmierung wird zunehmend wettbewerbsintensiv. Googles Gemini 2.5 Pro führt derzeit den SWE-bench Verified Benchmark mit 63,8 % an, während Anthropics Claude 3.7 Sonnet im Standardmodus 62,3 % und im Extended-Thinking-Modus bis zu 70,3 % erreicht. Trotz dieser beeindruckenden Benchmarks räumt OpenAI ein, dass selbst die besten Modelle heute noch an Aufgaben scheitern, die für Experten kein Problem darstellen. Viele Studien zeigen, dass Code-generierende Modelle oft Sicherheitslücken und Fehler nicht beheben – und sogar neue einführen. Auch GPT-4.1 wird umso unzuverlässiger, je mehr Eingabe-Tokens verarbeitet werden müssen.