menu
close

OpenAI, AI 코딩 시장 지배할 GPT-4.1 패밀리 공개

OpenAI가 GPT-4.1이라는 새로운 모델 패밀리를 출시했다. 표준, 미니, 나노 버전으로 구성된 이 모델들은 모두 코딩과 지시 사항 이행에 최적화됐으며, 최대 100만 토큰의 대규모 컨텍스트 윈도우를 지원한다. 이 API 전용 모델들은 코딩 벤치마크에서 기존 모델 대비 뛰어난 성능을 보였으며, 대표 모델인 GPT-4.1은 GPT-4o 대비 21% 향상된 결과를 기록했다. 이번 출시는 구글의 Gemini 2.5 Pro, Anthropic의 Claude 3.7 Sonnet 등과의 AI 코딩 시장 경쟁이 치열해지는 가운데 이루어졌다.
OpenAI, AI 코딩 시장 지배할 GPT-4.1 패밀리 공개

OpenAI가 GPT-4.1, GPT-4.1 mini, GPT-4.1 nano 등으로 구성된 새로운 GPT-4.1 모델 패밀리를 공개했다. 이들 모델은 모두 코딩과 지시 사항 이행에서 뛰어난 성능을 보인다. 4월 14일 출시된 이 신형 모델들은 OpenAI의 애플리케이션 프로그래밍 인터페이스(API)를 통해서만 제공되며, 기존의 최첨단 GPT-4o 모델을 전반적으로 능가한다.

이 모델들은 최대 100만 토큰(약 75만 단어)에 달하는 대규모 컨텍스트 이해력을 갖췄으며, 2024년 6월까지의 최신 지식이 반영되어 있다. 실제 소프트웨어 엔지니어링 역량을 측정하는 SWE-bench Verified 벤치마크에서 GPT-4.1은 54.6%의 작업을 완수해, GPT-4o의 33.2% 대비 크게 향상된 결과를 보였다. 이는 코드 저장소 탐색, 작업 완수, 실행 및 테스트 통과 코드 생성 등에서 모델의 역량이 강화됐음을 의미한다.

OpenAI 대변인은 "GPT-4.1은 실제 현장에서의 활용을 위해 개발자들의 직접적인 피드백을 바탕으로 최적화됐다. 프론트엔드 코딩, 불필요한 수정 최소화, 포맷 일관성, 응답 구조 및 순서 준수, 도구 사용의 일관성 등 개발자들이 가장 중요하게 여기는 부분에서 개선이 이루어졌다"며, "이러한 발전을 통해 개발자들은 실제 소프트웨어 엔지니어링 작업에 훨씬 능숙한 에이전트를 구축할 수 있게 됐다"고 설명했다.

소형 버전들은 성능과 비용 간 다양한 균형점을 제공한다. GPT-4.1 mini와 nano는 일부 정확도를 희생하는 대신 더 빠르고 효율적이며, OpenAI는 GPT-4.1 nano가 지금까지 출시한 모델 중 가장 빠르고 저렴하다고 밝혔다. 가격은 모델별로 크게 차이가 나며, GPT-4.1은 입력 토큰 100만 개당 2달러, 출력 토큰 100만 개당 8달러, GPT-4.1 mini는 각각 0.40달러와 1.60달러, GPT-4.1 nano는 각각 0.10달러와 0.40달러다.

코딩 외 평가에서도 OpenAI는 GPT-4.1을 Video-MME 벤치마크로 테스트했다. 이 벤치마크는 모델의 동영상 콘텐츠 이해 능력을 측정하는데, GPT-4.1은 '긴 영상, 자막 없음' 카테고리에서 72%의 정확도를 기록하며 1위를 차지했다.

이번 출시는 OpenAI의 코딩 분야 확장 전략과도 맞닿아 있다. OpenAI의 CFO 사라 프라이어는 최근 "엔드 투 엔드로 앱 전체를 프로그래밍할 수 있는 '에이전틱 소프트웨어 엔지니어'를 만드는 것이 회사의 비전"이라고 밝혔다. 프라이어는 "이 에이전트는 실제로 앱을 만들어줄 뿐만 아니라, 자체적으로 품질 보증, 버그 테스트, 문서 작성까지 수행할 수 있다"고 강조했다.

AI 코딩 모델 시장의 경쟁도 점점 치열해지고 있다. 구글의 Gemini 2.5 Pro는 현재 SWE-bench Verified 벤치마크에서 63.8%로 1위를 기록 중이며, Anthropic의 Claude 3.7 Sonnet은 일반 모드에서 62.3%, 확장 사고 모드에서는 70.3%까지 도달했다. 이처럼 인상적인 벤치마크 결과에도 불구하고, OpenAI는 현존 최고 모델조차 전문가라면 쉽게 해결할 수 있는 작업에서 여전히 어려움을 겪는다고 인정했다. 여러 연구에 따르면 코드 생성 모델들은 종종 보안 취약점이나 버그를 수정하지 못하거나, 오히려 새로운 문제를 일으키기도 한다. 또한 GPT-4.1은 처리해야 할 입력 토큰이 많아질수록 신뢰도가 떨어지는 경향이 있다.

Source: TechCrunch

Latest News