OpenAI prezentuje rodzinę GPT-4.1, by zdominować rynek AI do programowania

OpenAI wprowadziło nową rodzinę modeli o nazwie GPT-4.1, obejmującą wersje standardową, mini i nano, zoptymalizowane pod kątem programowania oraz wykonywania poleceń, z ogromnym kontekstem 1 miliona tokenów. Te modele, dostępne wyłącznie przez API, przewyższają dotychczasowe rozwiązania OpenAI w testach programistycznych – flagowy GPT-4.1 osiąga wynik o 21% lepszy niż GPT-4o. Premiera następuje w momencie zaostrzenia konkurencji z Gemini 2.5 Pro od Google i Claude 3.7 Sonnet od Anthropic, które również walczą o dominację na rynku AI do kodowania.

OpenAI zaprezentowało nową rodzinę modeli o nazwie GPT-4.1, obejmującą GPT-4.1, GPT-4.1 mini oraz GPT-4.1 nano, które wyróżniają się w zadaniach związanych z programowaniem oraz wykonywaniem poleceń. Modele te, udostępnione 14 kwietnia, są dostępne wyłącznie poprzez interfejs API OpenAI i przewyższają pod każdym względem dotychczasowy, najbardziej zaawansowany model GPT-4o.

Nowe modele oferują ulepszone rozumienie kontekstu, obsługując do 1 miliona tokenów (około 750 000 słów) oraz posiadają zaktualizowaną wiedzę do czerwca 2024 roku. W teście SWE-bench Verified, mierzącym rzeczywiste umiejętności inżynierii oprogramowania, GPT-4.1 rozwiązuje 54,6% zadań, podczas gdy GPT-4o osiąga 33,2%. Oznacza to poprawę w eksploracji repozytoriów kodu, realizacji zadań oraz generowaniu kodu, który działa i przechodzi testy.

„Zoptymalizowaliśmy GPT-4.1 do zastosowań w rzeczywistych projektach na podstawie bezpośrednich opinii, by poprawić aspekty najistotniejsze dla programistów: frontend, ograniczenie zbędnych zmian, konsekwentne przestrzeganie formatów i struktury odpowiedzi, uporządkowanie, spójne korzystanie z narzędzi i wiele innych” – wyjaśnia rzecznik OpenAI. „Te usprawnienia pozwalają deweloperom budować agentów znacznie lepiej radzących sobie z rzeczywistymi zadaniami inżynierii oprogramowania.”

Mniejsze warianty modeli oferują różne kompromisy pomiędzy wydajnością a kosztami. GPT-4.1 mini i nano są bardziej efektywne i szybsze, kosztem nieco niższej dokładności – przy czym OpenAI podkreśla, że GPT-4.1 nano to najszybszy i najtańszy model w historii firmy. Ceny są zróżnicowane: GPT-4.1 kosztuje 2 dolary za milion tokenów wejściowych i 8 dolarów za milion tokenów wyjściowych, GPT-4.1 mini – 0,40 dolara za milion tokenów wejściowych i 1,60 dolara za milion tokenów wyjściowych, a GPT-4.1 nano – jedynie 0,10 dolara za milion tokenów wejściowych i 0,40 dolara za milion tokenów wyjściowych.

W testach wykraczających poza programowanie OpenAI sprawdziło GPT-4.1 w Video-MME, mierzącym zdolność modelu do rozumienia treści wideo. GPT-4.1 osiągnął 72% trafności w kategorii „długie filmy bez napisów”, zdobywając pierwsze miejsce w tym benchmarku.

Premiera wpisuje się w szersze ambicje OpenAI na rynku narzędzi do kodowania. Dyrektorka finansowa OpenAI, Sarah Friar, niedawno przedstawiła wizję firmy dotyczącą stworzenia „agentowego inżyniera oprogramowania”, który będzie w stanie samodzielnie zaprogramować całe aplikacje. „Może dosłownie zbudować dla ciebie aplikację – i nie tylko ją stworzyć, ale także przeprowadzić własną kontrolę jakości, testy błędów oraz napisać dokumentację” – podkreśliła Friar.

Rynek modeli AI do programowania staje się coraz bardziej konkurencyjny. Gemini 2.5 Pro od Google obecnie przewodzi w teście SWE-bench Verified z wynikiem 63,8%, podczas gdy Claude 3.7 Sonnet od Anthropic uzyskuje 62,3% w trybie standardowym i do 70,3% w trybie rozszerzonego myślenia. Pomimo imponujących wyników OpenAI przyznaje, że nawet najlepsze modele wciąż mają trudności z zadaniami, które nie sprawiają problemów ekspertom. Wiele badań wykazało, że modele generujące kod często nie potrafią naprawić, a nawet wprowadzają nowe błędy i luki bezpieczeństwa. GPT-4.1 staje się również mniej niezawodny wraz ze wzrostem liczby przetwarzanych tokenów wejściowych.

OpenAI prezentuje rodzinę GPT-4.1, by zdominować rynek AI do programowania

Latest News

Doubao AI od ByteDance oferuje teraz asystę wideo w czasie rzeczywistym

OnePlus rezygnuje z suwaka Alert Slider na rzecz przycisku Plus Key zasilanego AI

Niemieckie giganty technologiczne łączą siły na rzecz wspieranej przez UE gigafabryki AI

Amerykańscy prokuratorzy badali Builder.ai przed upadkiem startupu AI wycenianego na 1,5 mld dolarów

Fundusz Norwegii o wartości 1,8 biliona dolarów czyni AI obowiązkowym narzędziem dla pracowników

OpenTools.ai prezentuje AI News Hub dla profesjonalistów z branży technologicznej

Google udostępnia deweloperom sterowanie komputerem przez AI dzięki Gemini

Google ulepsza modele Gemini dzięki przejrzystym podsumowaniom toku rozumowania

OpenAI prezentuje rodzinę GPT-4.1, by zdominować rynek AI do programowania

Related Articles

Doubao AI od ByteDance oferuje teraz asystę wideo w czasie rzeczywistym

OnePlus rezygnuje z suwaka Alert Slider na rzecz przycisku Plus Key zasilanego AI

Niemieckie giganty technologiczne łączą siły na rzecz wspieranej przez UE gigafabryki AI

Latest News

Doubao AI od ByteDance oferuje teraz asystę wideo w czasie rzeczywistym

OnePlus rezygnuje z suwaka Alert Slider na rzecz przycisku Plus Key zasilanego AI

Niemieckie giganty technologiczne łączą siły na rzecz wspieranej przez UE gigafabryki AI

Amerykańscy prokuratorzy badali Builder.ai przed upadkiem startupu AI wycenianego na 1,5 mld dolarów

Fundusz Norwegii o wartości 1,8 biliona dolarów czyni AI obowiązkowym narzędziem dla pracowników

OpenTools.ai prezentuje AI News Hub dla profesjonalistów z branży technologicznej

Google udostępnia deweloperom sterowanie komputerem przez AI dzięki Gemini

Google ulepsza modele Gemini dzięki przejrzystym podsumowaniom toku rozumowania