OpenAI představila novou rodinu modelů s názvem GPT-4.1, která zahrnuje GPT-4.1, GPT-4.1 mini a GPT-4.1 nano, přičemž všechny vynikají v programování a plnění instrukcí. Modely byly uvedeny 14. dubna a jsou dostupné výhradně prostřednictvím aplikačního rozhraní (API) OpenAI. Ve všech ohledech překonávají dosud nejpokročilejší model společnosti, GPT-4o.
Modely přinášejí vylepšené porozumění kontextu, podporují až 1 milion tokenů (přibližně 750 000 slov) a disponují aktualizovanými znalostmi do června 2024. Na benchmarku SWE-bench Verified, který měří reálné dovednosti v softwarovém inženýrství, GPT-4.1 zvládá 54,6 % úloh, zatímco GPT-4o pouze 33,2 %. To odráží zlepšení schopnosti modelu procházet repozitáře kódu, dokončovat úkoly a vytvářet kód, který nejen běží, ale také prochází testy.
"GPT-4.1 jsme optimalizovali pro reálné použití na základě přímé zpětné vazby, abychom zlepšili oblasti, na kterých vývojářům nejvíce záleží: frontendové programování, méně zbytečných úprav, spolehlivé dodržování formátů, struktury a pořadí odpovědí, konzistentní používání nástrojů a další," uvedl mluvčí OpenAI. "Tato vylepšení umožňují vývojářům vytvářet agenty, kteří jsou výrazně lepší v reálných softwarových úlohách."
Menší varianty nabízejí různé kompromisy mezi výkonem a cenou. GPT-4.1 mini a nano jsou efektivnější a rychlejší, ovšem za cenu mírně nižší přesnosti; OpenAI uvádí, že GPT-4.1 nano je vůbec nejrychlejší a nejlevnější model v historii firmy. Ceny se výrazně liší: GPT-4.1 stojí 2 dolary za milion vstupních tokenů a 8 dolarů za milion výstupních tokenů, GPT-4.1 mini je za 0,40 USD/milion vstupních tokenů a 1,60 USD/milion výstupních tokenů, a GPT-4.1 nano vyjde jen na 0,10 USD/milion vstupních tokenů a 0,40 USD/milion výstupních tokenů.
Při hodnocení mimo oblast programování testovala OpenAI model GPT-4.1 také pomocí Video-MME, což je benchmark měřící schopnost modelu porozumět obsahu ve videích. GPT-4.1 zde dosáhl 72% přesnosti v kategorii "dlouhá videa bez titulků" a obsadil první místo v tomto testu.
Tato novinka zapadá do širších ambicí OpenAI v oblasti programování. Finanční ředitelka OpenAI Sarah Friar nedávno představila vizi společnosti vytvořit "agentního softwarového inženýra", který dokáže naprogramovat celé aplikace od začátku do konce. "Může vám doslova postavit aplikaci – a nejen ji vytvořit, ale také provést vlastní kontrolu kvality, testování chyb a napsat dokumentaci," uvedla Friar.
Trh s AI modely pro programování je stále konkurenčnější. Google Gemini 2.5 Pro aktuálně vede v benchmarku SWE-bench Verified s 63,8 %, zatímco Anthropic Claude 3.7 Sonnet dosahuje v běžném režimu 62,3 % a v režimu rozšířeného uvažování až 70,3 %. Navzdory těmto působivým výsledkům OpenAI přiznává, že i nejlepší modely dnes selhávají v úlohách, které by odborníci zvládli bez problémů. Řada studií ukazuje, že modely generující kód často nedokážou opravit, a dokonce i zavádějí bezpečnostní chyby a bugy. GPT-4.1 je navíc méně spolehlivý, čím více vstupních tokenů musí zpracovat.