OpenAI zaprezentowało nową rodzinę modeli o nazwie GPT-4.1, obejmującą GPT-4.1, GPT-4.1 mini oraz GPT-4.1 nano, które wyróżniają się w zadaniach związanych z programowaniem oraz wykonywaniem poleceń. Modele te, udostępnione 14 kwietnia, są dostępne wyłącznie poprzez interfejs API OpenAI i przewyższają pod każdym względem dotychczasowy, najbardziej zaawansowany model GPT-4o.
Nowe modele oferują ulepszone rozumienie kontekstu, obsługując do 1 miliona tokenów (około 750 000 słów) oraz posiadają zaktualizowaną wiedzę do czerwca 2024 roku. W teście SWE-bench Verified, mierzącym rzeczywiste umiejętności inżynierii oprogramowania, GPT-4.1 rozwiązuje 54,6% zadań, podczas gdy GPT-4o osiąga 33,2%. Oznacza to poprawę w eksploracji repozytoriów kodu, realizacji zadań oraz generowaniu kodu, który działa i przechodzi testy.
„Zoptymalizowaliśmy GPT-4.1 do zastosowań w rzeczywistych projektach na podstawie bezpośrednich opinii, by poprawić aspekty najistotniejsze dla programistów: frontend, ograniczenie zbędnych zmian, konsekwentne przestrzeganie formatów i struktury odpowiedzi, uporządkowanie, spójne korzystanie z narzędzi i wiele innych” – wyjaśnia rzecznik OpenAI. „Te usprawnienia pozwalają deweloperom budować agentów znacznie lepiej radzących sobie z rzeczywistymi zadaniami inżynierii oprogramowania.”
Mniejsze warianty modeli oferują różne kompromisy pomiędzy wydajnością a kosztami. GPT-4.1 mini i nano są bardziej efektywne i szybsze, kosztem nieco niższej dokładności – przy czym OpenAI podkreśla, że GPT-4.1 nano to najszybszy i najtańszy model w historii firmy. Ceny są zróżnicowane: GPT-4.1 kosztuje 2 dolary za milion tokenów wejściowych i 8 dolarów za milion tokenów wyjściowych, GPT-4.1 mini – 0,40 dolara za milion tokenów wejściowych i 1,60 dolara za milion tokenów wyjściowych, a GPT-4.1 nano – jedynie 0,10 dolara za milion tokenów wejściowych i 0,40 dolara za milion tokenów wyjściowych.
W testach wykraczających poza programowanie OpenAI sprawdziło GPT-4.1 w Video-MME, mierzącym zdolność modelu do rozumienia treści wideo. GPT-4.1 osiągnął 72% trafności w kategorii „długie filmy bez napisów”, zdobywając pierwsze miejsce w tym benchmarku.
Premiera wpisuje się w szersze ambicje OpenAI na rynku narzędzi do kodowania. Dyrektorka finansowa OpenAI, Sarah Friar, niedawno przedstawiła wizję firmy dotyczącą stworzenia „agentowego inżyniera oprogramowania”, który będzie w stanie samodzielnie zaprogramować całe aplikacje. „Może dosłownie zbudować dla ciebie aplikację – i nie tylko ją stworzyć, ale także przeprowadzić własną kontrolę jakości, testy błędów oraz napisać dokumentację” – podkreśliła Friar.
Rynek modeli AI do programowania staje się coraz bardziej konkurencyjny. Gemini 2.5 Pro od Google obecnie przewodzi w teście SWE-bench Verified z wynikiem 63,8%, podczas gdy Claude 3.7 Sonnet od Anthropic uzyskuje 62,3% w trybie standardowym i do 70,3% w trybie rozszerzonego myślenia. Pomimo imponujących wyników OpenAI przyznaje, że nawet najlepsze modele wciąż mają trudności z zadaniami, które nie sprawiają problemów ekspertom. Wiele badań wykazało, że modele generujące kod często nie potrafią naprawić, a nawet wprowadzają nowe błędy i luki bezpieczeństwa. GPT-4.1 staje się również mniej niezawodny wraz ze wzrostem liczby przetwarzanych tokenów wejściowych.