OpenAI выпустила новое семейство моделей под названием GPT-4.1, включающее GPT-4.1, GPT-4.1 mini и GPT-4.1 nano, каждая из которых превосходно справляется с программированием и выполнением инструкций. Релиз состоялся 14 апреля, и новые модели доступны исключительно через программный интерфейс OpenAI (API), превосходя по всем показателям самую продвинутую модель компании — GPT-4o.
Модели отличаются улучшенным пониманием контекста, поддерживают до 1 миллиона токенов (примерно 750 000 слов) и обладают обновлёнными знаниями по состоянию на июнь 2024 года. В бенчмарке SWE-bench Verified, оценивающем реальные навыки программирования, GPT-4.1 выполняет 54,6% задач против 33,2% у GPT-4o. Это отражает улучшения в способности модели анализировать репозитории кода, завершать задачи и генерировать код, который запускается и проходит тесты.
«Мы оптимизировали GPT-4.1 для реального использования на основе прямых отзывов, чтобы улучшить те аспекты, которые наиболее важны для разработчиков: фронтенд-кодинг, меньше лишних изменений, надёжное соблюдение форматов, структура и порядок ответов, последовательное использование инструментов и многое другое», — пояснил представитель OpenAI. «Эти улучшения позволяют разработчикам создавать агентов, значительно лучше справляющихся с реальными задачами программирования».
Младшие версии предлагают различные компромиссы между производительностью и стоимостью. GPT-4.1 mini и nano работают быстрее и эффективнее, но с некоторой потерей точности; при этом GPT-4.1 nano — самая быстрая и дешёвая модель OpenAI на сегодняшний день. Стоимость использования существенно различается: GPT-4.1 стоит $2 за миллион входных токенов и $8 за миллион выходных токенов, GPT-4.1 mini — $0,40 и $1,60 соответственно, а GPT-4.1 nano — всего $0,10 и $0,40 за миллион токенов.
В тестах за пределами программирования OpenAI проверила GPT-4.1 с помощью Video-MME — бенчмарка, оценивающего способность модели понимать видеоконтент. GPT-4.1 достигла 72% точности в категории «длинные видео без субтитров», заняв первое место в этом тесте.
Этот релиз соответствует более широкой стратегии OpenAI в области программирования. Финансовый директор OpenAI Сара Фрайер недавно рассказала о видении компании создать «агентного программиста», способного полностью разрабатывать приложения. «Он может буквально создать для вас приложение — и не только создать, но и провести собственное тестирование качества, поиск и исправление ошибок, а также написать документацию», — отметила Фрайер.
Рынок AI-моделей для программирования становится всё более конкурентным. Google Gemini 2.5 Pro сейчас лидирует в бенчмарке SWE-bench Verified с результатом 63,8%, а Claude 3.7 Sonnet от Anthropic набирает 62,3% в стандартном режиме и до 70,3% в режиме расширенного мышления. Несмотря на впечатляющие результаты, в OpenAI признают, что даже лучшие современные модели пока не справляются с задачами, которые не вызвали бы затруднений у экспертов. Многочисленные исследования показывают, что модели для генерации кода часто не только не исправляют, но и добавляют уязвимости и ошибки. Кроме того, надёжность GPT-4.1 снижается по мере увеличения объёма обрабатываемых токенов.