OpenAI представляет семейство GPT-4.1 для доминирования на рынке AI-кодирования

OpenAI выпустила новое семейство моделей под названием GPT-4.1, включающее стандартную, mini и nano версии, все из которых оптимизированы для программирования и выполнения инструкций с огромным контекстным окном в 1 миллион токенов. Эти модели, доступные только через API, превосходят предыдущие решения OpenAI по результатам кодинговых бенчмарков: флагманская GPT-4.1 демонстрирует улучшение на 21% по сравнению с GPT-4o. Релиз состоялся на фоне усиливающейся конкуренции с Google Gemini 2.5 Pro и Claude 3.7 Sonnet от Anthropic, которые также претендуют на лидерство в сфере AI-кодирования.

OpenAI выпустила новое семейство моделей под названием GPT-4.1, включающее GPT-4.1, GPT-4.1 mini и GPT-4.1 nano, каждая из которых превосходно справляется с программированием и выполнением инструкций. Релиз состоялся 14 апреля, и новые модели доступны исключительно через программный интерфейс OpenAI (API), превосходя по всем показателям самую продвинутую модель компании — GPT-4o.

Модели отличаются улучшенным пониманием контекста, поддерживают до 1 миллиона токенов (примерно 750 000 слов) и обладают обновлёнными знаниями по состоянию на июнь 2024 года. В бенчмарке SWE-bench Verified, оценивающем реальные навыки программирования, GPT-4.1 выполняет 54,6% задач против 33,2% у GPT-4o. Это отражает улучшения в способности модели анализировать репозитории кода, завершать задачи и генерировать код, который запускается и проходит тесты.

«Мы оптимизировали GPT-4.1 для реального использования на основе прямых отзывов, чтобы улучшить те аспекты, которые наиболее важны для разработчиков: фронтенд-кодинг, меньше лишних изменений, надёжное соблюдение форматов, структура и порядок ответов, последовательное использование инструментов и многое другое», — пояснил представитель OpenAI. «Эти улучшения позволяют разработчикам создавать агентов, значительно лучше справляющихся с реальными задачами программирования».

Младшие версии предлагают различные компромиссы между производительностью и стоимостью. GPT-4.1 mini и nano работают быстрее и эффективнее, но с некоторой потерей точности; при этом GPT-4.1 nano — самая быстрая и дешёвая модель OpenAI на сегодняшний день. Стоимость использования существенно различается: GPT-4.1 стоит $2 за миллион входных токенов и $8 за миллион выходных токенов, GPT-4.1 mini — $0,40 и $1,60 соответственно, а GPT-4.1 nano — всего $0,10 и $0,40 за миллион токенов.

В тестах за пределами программирования OpenAI проверила GPT-4.1 с помощью Video-MME — бенчмарка, оценивающего способность модели понимать видеоконтент. GPT-4.1 достигла 72% точности в категории «длинные видео без субтитров», заняв первое место в этом тесте.

Этот релиз соответствует более широкой стратегии OpenAI в области программирования. Финансовый директор OpenAI Сара Фрайер недавно рассказала о видении компании создать «агентного программиста», способного полностью разрабатывать приложения. «Он может буквально создать для вас приложение — и не только создать, но и провести собственное тестирование качества, поиск и исправление ошибок, а также написать документацию», — отметила Фрайер.

Рынок AI-моделей для программирования становится всё более конкурентным. Google Gemini 2.5 Pro сейчас лидирует в бенчмарке SWE-bench Verified с результатом 63,8%, а Claude 3.7 Sonnet от Anthropic набирает 62,3% в стандартном режиме и до 70,3% в режиме расширенного мышления. Несмотря на впечатляющие результаты, в OpenAI признают, что даже лучшие современные модели пока не справляются с задачами, которые не вызвали бы затруднений у экспертов. Многочисленные исследования показывают, что модели для генерации кода часто не только не исправляют, но и добавляют уязвимости и ошибки. Кроме того, надёжность GPT-4.1 снижается по мере увеличения объёма обрабатываемых токенов.

OpenAI представляет семейство GPT-4.1 для доминирования на рынке AI-кодирования

Latest News

Искусственный интеллект Doubao от ByteDance теперь предлагает помощь в реальном времени через видеосвязь

OnePlus отказывается от переключателя Alert Slider в пользу кнопки Plus Key с поддержкой ИИ

Немецкие технологические гиганты объединяются для создания поддерживаемой ЕС гигафабрики ИИ

Прокуратура США расследовала Builder.ai перед крахом AI-стартапа стоимостью $1,5 млрд

Норвежский фонд в $1,8 трлн делает использование ИИ обязательным для сотрудников

OpenTools.ai представляет AI News Hub для IT-специалистов

Google расширяет возможности управления компьютером с помощью ИИ для разработчиков через Gemini

Google улучшает модели Gemini с помощью прозрачных сводок мыслительного процесса

OpenAI представляет семейство GPT-4.1 для доминирования на рынке AI-кодирования

Related Articles

Искусственный интеллект Doubao от ByteDance теперь предлагает помощь в реальном времени через видеосвязь

OnePlus отказывается от переключателя Alert Slider в пользу кнопки Plus Key с поддержкой ИИ

Немецкие технологические гиганты объединяются для создания поддерживаемой ЕС гигафабрики ИИ

Latest News

Искусственный интеллект Doubao от ByteDance теперь предлагает помощь в реальном времени через видеосвязь

OnePlus отказывается от переключателя Alert Slider в пользу кнопки Plus Key с поддержкой ИИ

Немецкие технологические гиганты объединяются для создания поддерживаемой ЕС гигафабрики ИИ

Прокуратура США расследовала Builder.ai перед крахом AI-стартапа стоимостью $1,5 млрд

Норвежский фонд в $1,8 трлн делает использование ИИ обязательным для сотрудников

OpenTools.ai представляет AI News Hub для IT-специалистов

Google расширяет возможности управления компьютером с помощью ИИ для разработчиков через Gemini

Google улучшает модели Gemini с помощью прозрачных сводок мыслительного процесса