OpenAI запустила нову лінійку моделей під назвою GPT-4.1, до якої входять GPT-4.1, GPT-4.1 mini та GPT-4.1 nano — усі вони відзначаються високою ефективністю у кодуванні та виконанні інструкцій. Нові моделі, представлені 14 квітня, доступні виключно через програмний інтерфейс OpenAI (API) і перевершують найсучаснішу модель компанії GPT-4o за всіма показниками.
Моделі мають покращене розуміння контексту, підтримують до 1 мільйона токенів (приблизно 750 000 слів) і містять оновлені знання станом на червень 2024 року. У тесті SWE-bench Verified, що оцінює реальні навички програмування, GPT-4.1 виконує 54,6% завдань проти 33,2% у GPT-4o. Це свідчить про покращення здатності моделі аналізувати репозиторії коду, завершувати завдання та створювати код, який працює і проходить тести.
"Ми оптимізували GPT-4.1 для реального використання на основі прямого зворотного зв'язку, щоб покращити ті аспекти, які найбільше цікавлять розробників: фронтенд-кодування, мінімізація зайвих змін, надійне дотримання форматів, структури та порядку відповідей, послідовне використання інструментів тощо", — пояснив представник OpenAI. "Ці покращення дозволяють розробникам створювати агентів, які значно краще справляються із завданнями реального програмування."
Менші варіанти моделі пропонують різні компроміси між продуктивністю та вартістю. GPT-4.1 mini та nano працюють швидше й ефективніше, але з деякою втратою точності; при цьому OpenAI зазначає, що GPT-4.1 nano — найшвидша й найдешевша модель компанії. Вартість суттєво різниться: GPT-4.1 коштує $2 за мільйон вхідних токенів і $8 за мільйон вихідних, GPT-4.1 mini — $0,40/млн вхідних і $1,60/млн вихідних, а GPT-4.1 nano — лише $0,10/млн вхідних і $0,40/млн вихідних токенів.
У тестах поза сферою кодування OpenAI перевірила GPT-4.1 за допомогою Video-MME, що вимірює здатність моделі розуміти відеоконтент. GPT-4.1 досягла 72% точності у категорії "довгі відео без субтитрів", посівши перше місце у цьому рейтингу.
Цей реліз відповідає ширшим амбіціям OpenAI у сфері кодування. Фінансова директорка OpenAI Сара Фраєр нещодавно розповіла про бачення компанії створити "агентного програміста", здатного повністю створювати додатки. "Він буквально може створити для вас застосунок — і не лише створити, а й провести власне тестування якості, пошук помилок та написання документації", — зазначила Фраєр.
Ринок AI-моделей для кодування стає дедалі конкурентнішим. Google Gemini 2.5 Pro наразі очолює рейтинг SWE-bench Verified із 63,8%, а Anthropic Claude 3.7 Sonnet набирає 62,3% у стандартному режимі та до 70,3% у режимі розширеного мислення. Попри вражаючі результати, OpenAI визнає, що навіть найкращі моделі сьогодні не справляються із завданнями, які не викликали б труднощів у експертів. Багато досліджень показують, що моделі для генерації коду часто не лише не виправляють, а й додають уразливості та помилки. GPT-4.1 також стає менш надійною при обробці великої кількості вхідних токенів.