Inilunsad ng OpenAI ang bagong pamilya ng mga modelo na tinatawag na GPT-4.1, kabilang ang GPT-4.1, GPT-4.1 mini, at GPT-4.1 nano, na lahat ay mahusay sa pag-coding at pagsunod sa mga tagubilin. Inilabas noong Abril 14, ang mga bagong modelong ito ay eksklusibong makukuha sa pamamagitan ng application programming interface (API) ng OpenAI at nalampasan ang pinaka-advanced na GPT-4o model ng kumpanya sa lahat ng aspeto.
May mga pinahusay na kakayahan sa pag-unawa ng konteksto ang mga modelong ito, na sumusuporta ng hanggang 1 milyong token (humigit-kumulang 750,000 na salita) at may pinakabagong kaalaman hanggang Hunyo 2024. Sa SWE-bench Verified, isang sukatan ng totoong kakayahan sa software engineering, natatapos ng GPT-4.1 ang 54.6% ng mga gawain, kumpara sa 33.2% ng GPT-4o. Ipinapakita nito ang pagbuti ng kakayahan ng modelo na mag-explore ng code repositories, tapusin ang mga gawain, at gumawa ng code na tumatakbo at pumapasa sa mga pagsusuri.
"In-optimize namin ang GPT-4.1 para sa aktwal na paggamit batay sa direktang feedback upang mapabuti ang mga aspetong pinakamahalaga sa mga developer: frontend coding, mas kaunting hindi kinakailangang edits, maaasahang pagsunod sa format, tamang estruktura at pagkakasunod-sunod ng sagot, tuloy-tuloy na paggamit ng tools, at marami pang iba," paliwanag ng tagapagsalita ng OpenAI. "Pinapayagan ng mga pagpapabuting ito ang mga developer na bumuo ng mga agent na mas mahusay sa totoong mga gawain sa software engineering."
Nag-aalok ang mas maliliit na variant ng iba't ibang balanse ng performance at halaga. Mas episyente at mas mabilis ang GPT-4.1 mini at nano kapalit ng kaunting kawastuhan, at ayon sa OpenAI, ang GPT-4.1 nano ang pinakamabilis at pinakamurang modelo nila. Malaki ang pagkakaiba ng presyo: Ang GPT-4.1 ay nagkakahalaga ng $2 kada milyong input tokens at $8 kada milyong output tokens, ang GPT-4.1 mini ay $0.40/milyong input tokens at $1.60/milyong output tokens, at ang GPT-4.1 nano ay $0.10/milyong input tokens at $0.40/milyong output tokens lamang.
Sa mga pagsusuri lampas sa pag-coding, sinubukan ng OpenAI ang GPT-4.1 gamit ang Video-MME, na sumusukat sa kakayahan ng modelo na umunawa ng nilalaman ng mga video. Nakamit ng GPT-4.1 ang 72% accuracy sa "long, no subtitles" na kategorya ng video, at nakuha ang pinakamataas na posisyon sa benchmark na ito.
Ang paglabas na ito ay tumutugma sa mas malawak na ambisyon ng OpenAI sa coding space. Kamakailan, tinalakay ni OpenAI CFO Sarah Friar ang pananaw ng kumpanya na lumikha ng isang "agentic software engineer" na kayang mag-program ng buong apps mula simula hanggang dulo. "Literal na makakagawa ito ng app para sa iyo — at hindi lang iyon, kundi pati na rin ang sarili nitong quality assurance, bug testing, at pagsulat ng dokumentasyon," pahayag ni Friar.
Lalong nagiging mahigpit ang kompetisyon sa AI coding model space. Nangunguna ngayon ang Gemini 2.5 Pro ng Google sa SWE-bench Verified benchmark na may 63.8%, habang ang Claude 3.7 Sonnet ng Anthropic ay may 62.3% sa standard mode at umaabot sa 70.3% sa extended thinking mode. Sa kabila ng mga kahanga-hangang benchmark na ito, kinikilala ng OpenAI na kahit ang pinakamahusay na mga modelo ngayon ay nahihirapan pa rin sa mga gawain na hindi problema para sa mga eksperto. Maraming pag-aaral ang nagpapakita na ang mga code-generating model ay madalas na hindi nakakakumpuni, at minsan pa nga ay nakakapagdulot, ng mga security vulnerability at bug. Nagiging mas hindi maaasahan ang GPT-4.1 habang dumarami ang input tokens na kailangang iproseso.