menu
close

OpenAI представи фамилията GPT-4.1, за да доминира на пазара за AI програмиране

OpenAI пусна ново семейство модели, наречено GPT-4.1, включващо стандартна, мини и нано версия, всички оптимизирани за програмиране и следване на инструкции с огромен контекстен прозорец от 1 милион токена. Тези модели, достъпни само чрез API, превъзхождат предишните предложения на OpenAI по бенчмаркове за програмиране, като водещият GPT-4.1 показва 21% подобрение спрямо GPT-4o. Пускането им идва на фона на засилваща се конкуренция с Gemini 2.5 Pro на Google и Claude 3.7 Sonnet на Anthropic, които също се борят за надмощие в AI програмирането.
OpenAI представи фамилията GPT-4.1, за да доминира на пазара за AI програмиране

OpenAI пусна ново семейство модели, наречено GPT-4.1, включващо GPT-4.1, GPT-4.1 mini и GPT-4.1 nano, всички от които се отличават в програмирането и следването на инструкции. Пуснати на 14 април, тези нови модели са налични изключително чрез приложния програмен интерфейс (API) на OpenAI и превъзхождат най-напредналия модел на компанията GPT-4o във всички отношения.

Моделите разполагат с подобрено разбиране на контекста, поддържат до 1 милион токена (приблизително 750 000 думи) и са с обновени знания до юни 2024 г. На SWE-bench Verified, мярка за реални умения по софтуерно инженерство, GPT-4.1 изпълнява 54,6% от задачите, спрямо 33,2% за GPT-4o. Това отразява подобренията в способността на модела да изследва кодови хранилища, да завършва задачи и да генерира код, който работи и преминава тестове.

"Оптимизирахме GPT-4.1 за реална употреба на база директна обратна връзка, за да подобрим в области, които са най-важни за разработчиците: фронтенд програмиране, по-малко излишни редакции, надеждно следване на формати, спазване на структурата и подредбата на отговорите, последователна употреба на инструменти и други", обясни говорител на OpenAI. "Тези подобрения позволяват на разработчиците да създават агенти, които са значително по-добри в реални задачи по софтуерно инженерство."

По-малките варианти предлагат различни съотношения между производителност и цена. GPT-4.1 mini и nano са по-ефективни и по-бързи за сметка на известна точност, като OpenAI заявява, че GPT-4.1 nano е най-бързият и евтин модел досега. Цените варират значително: GPT-4.1 струва $2 на милион входни токени и $8 на милион изходни токени, GPT-4.1 mini е $0.40/милион входни токени и $1.60/милион изходни токени, а GPT-4.1 nano е само $0.10/милион входни токени и $0.40/милион изходни токени.

В оценки извън програмирането OpenAI тества GPT-4.1 с Video-MME, който измерва способността на модела да разбира съдържание във видеа. GPT-4.1 постига 72% точност в категорията "дълги видеа без субтитри", заемайки първо място в този бенчмарк.

Това издание съвпада с по-широките амбиции на OpenAI в сферата на програмирането. Финансовият директор на OpenAI Сара Фрайър наскоро обсъди визията на компанията за създаване на "агентен софтуерен инженер", който може да програмира цели приложения от край до край. "Той буквално може да изгради приложение за вас — и не само да го изгради, но и да извърши собствен контрол на качеството, тестване за грешки и писане на документация", заяви Фрайър.

Пространството на AI модели за програмиране става все по-конкурентно. Gemini 2.5 Pro на Google в момента оглавява бенчмарка SWE-bench Verified с 63,8%, докато Claude 3.7 Sonnet на Anthropic постига 62,3% в стандартен режим и до 70,3% в режим за разширено мислене. Въпреки впечатляващите резултати, OpenAI признава, че дори най-добрите модели днес се затрудняват с задачи, които не биха били проблем за експерти. Много изследвания показват, че моделите за генериране на код често не успяват да коригират, а дори въвеждат уязвимости и бъгове. GPT-4.1 също става по-малко надежден, колкото повече входни токени трябва да обработи.

Source: TechCrunch

Latest News