menu
close

OpenAI lansează familia GPT-4.1 pentru a domina piața AI dedicată programării

OpenAI a lansat o nouă familie de modele denumită GPT-4.1, care include versiunile standard, mini și nano, toate optimizate pentru programare și urmărirea instrucțiunilor, având o fereastră de context uriașă de 1 milion de tokeni. Aceste modele, disponibile exclusiv prin API, depășesc ofertele anterioare ale OpenAI la testele de programare, modelul de vârf GPT-4.1 înregistrând o îmbunătățire de 21% față de GPT-4o. Lansarea vine pe fondul intensificării competiției cu Gemini 2.5 Pro de la Google și Claude 3.7 Sonnet de la Anthropic, care concurează pentru supremație în domeniul AI pentru programare.
OpenAI lansează familia GPT-4.1 pentru a domina piața AI dedicată programării

OpenAI a lansat o nouă familie de modele denumită GPT-4.1, incluzând GPT-4.1, GPT-4.1 mini și GPT-4.1 nano, toate excelând la programare și urmărirea instrucțiunilor. Lansate pe 14 aprilie, aceste noi modele sunt disponibile exclusiv prin intermediul interfeței de programare a aplicațiilor (API) OpenAI și depășesc modelul de top GPT-4o al companiei la toate capitolele.

Modelele dispun de o înțelegere îmbunătățită a contextului, suportând până la 1 milion de tokeni (aproximativ 750.000 de cuvinte) și sunt actualizate cu informații până în iunie 2024. Pe SWE-bench Verified, un indicator al abilităților reale de inginerie software, GPT-4.1 finalizează 54,6% dintre sarcini, comparativ cu 33,2% pentru GPT-4o. Acest lucru reflectă îmbunătățiri în capacitatea modelului de a explora depozite de cod, de a finaliza sarcini și de a genera cod care rulează și trece testele.

„Am optimizat GPT-4.1 pentru utilizarea în lumea reală, pe baza feedback-ului direct, pentru a îmbunătăți aspectele care contează cel mai mult pentru dezvoltatori: programare frontend, mai puține editări inutile, respectarea formatelor, structurii și ordinii răspunsurilor, utilizarea consecventă a uneltelor și multe altele”, a explicat un purtător de cuvânt OpenAI. „Aceste îmbunătățiri permit dezvoltatorilor să creeze agenți mult mai buni la sarcinile reale de inginerie software.”

Variantele mai mici oferă compromisuri diferite între performanță și cost. GPT-4.1 mini și nano sunt mai eficiente și mai rapide, cu un mic sacrificiu de acuratețe, OpenAI afirmând că GPT-4.1 nano este cel mai rapid și mai ieftin model al său de până acum. Prețurile variază semnificativ: GPT-4.1 costă 2 USD per milion de tokeni de input și 8 USD per milion de tokeni de output, GPT-4.1 mini este 0,40 USD/milion input și 1,60 USD/milion output, iar GPT-4.1 nano doar 0,10 USD/milion input și 0,40 USD/milion output.

În evaluări dincolo de programare, OpenAI a testat GPT-4.1 folosind Video-MME, care măsoară capacitatea unui model de a înțelege conținut video. GPT-4.1 a atins o acuratețe de 72% la categoria „video lungi, fără subtitrări”, ocupând primul loc în acest benchmark.

Această lansare se aliniază cu ambițiile mai largi ale OpenAI în domeniul programării. Directorul financiar OpenAI, Sarah Friar, a discutat recent despre viziunea companiei de a crea un „inginer software agentic” care să poată programa aplicații complete, cap-coadă. „Poate literalmente să construiască o aplicație pentru tine — și nu doar să o construiască, ci și să facă asigurarea calității, testarea erorilor și redactarea documentației”, a declarat Friar.

Spațiul modelelor AI pentru programare devine din ce în ce mai competitiv. Gemini 2.5 Pro de la Google conduce în prezent benchmark-ul SWE-bench Verified cu 63,8%, în timp ce Claude 3.7 Sonnet de la Anthropic obține 62,3% în modul standard și până la 70,3% în modul de gândire extinsă. În ciuda acestor rezultate impresionante, OpenAI recunoaște că chiar și cele mai bune modele de astăzi întâmpină dificultăți la sarcini care nu ar pune probleme experților umani. Numeroase studii au arătat că modelele generatoare de cod nu reușesc adesea să repare și chiar introduc vulnerabilități de securitate și erori. De asemenea, GPT-4.1 devine mai puțin fiabil pe măsură ce trebuie să proceseze mai mulți tokeni de input.

Source: TechCrunch

Latest News