menu
close

Anthropic, Claude 4 모델로 AI 코딩 벤치마크 신기록 수립

Anthropic가 지금까지 가장 진보된 AI 모델인 Claude Opus 4와 Claude Sonnet 4를 출시하며 코딩, 추론, 자율 작업 분야에서 새로운 기준을 제시했다. Claude Opus 4는 복잡한 작업을 거의 7시간 동안 자율적으로 수행할 수 있는 전례 없는 지속력을 보여주며, 사실상 하루 근무 시간에 근접했다. 두 모델 모두 하이브리드 추론, 웹 검색 통합, 향상된 메모리 유지 기능을 갖추어 챗봇에서 자율 AI 에이전트로의 진화를 이끌고 있다.
Anthropic, Claude 4 모델로 AI 코딩 벤치마크 신기록 수립

Anthropic는 2025년 5월 22일 차세대 AI 모델인 Claude Opus 4와 Claude Sonnet 4를 공개하며, 인간의 개입 없이 AI 시스템이 달성할 수 있는 한계를 한층 더 끌어올렸다.

Anthropic가 '세계 최고의 코딩 모델'이라 칭한 Claude Opus 4는 실제 소프트웨어 코딩 작업 성능을 측정하는 엄격한 벤치마크인 SWE-bench에서 72.5%라는 혁신적인 점수를 기록했다. Rakuten의 테스트에서는 이 모델이 복잡한 오픈소스 프로젝트를 거의 7시간 동안 자율적으로 작업하는 놀라운 지속력을 보여, 기존 AI 모델의 몇 분에 불과했던 집중력 한계를 크게 뛰어넘었다.

Opus 4의 효율적인 대안으로 설계된 Claude Sonnet 4는 전작인 Claude Sonnet 3.7보다 뛰어난 코딩 및 추론 능력을 제공한다. 특히 SWE-bench에서 72.7%라는 더 높은 점수를 기록해, OpenAI의 Codex-1(72.1%)과 Google의 Gemini 2.5 Pro(63.2%) 등 경쟁 모델을 앞질렀다.

두 모델 모두 하이브리드 추론 기능을 탑재해, 즉각적인 응답과 심층적 사고를 오가며 복잡한 문제를 해결할 수 있다. 또한, 사고 과정 중 웹 검색 등 다양한 도구를 활용할 수 있으며, 로컬 파일 접근이 허용될 경우 핵심 정보를 추출·저장해 맥락을 유지하고 지식을 축적한다.

이번 신제품들은 단순한 챗봇에서 복잡하고 다단계의 작업을 수천 단계에 걸쳐 처리할 수 있는 자율형 작업 에이전트로 AI의 기능 패러다임을 전환시켰다. 이를 통해 AI는 프로젝트의 기획부터 완성까지 하루 종일 맥락을 유지하며 일관된 작업 수행이 가능해졌다.

Claude Sonnet 4는 무료 이용자를 포함한 모든 Claude 사용자에게 제공되며, Claude Opus 4는 Pro, Max, Team, Enterprise 요금제 가입자만 사용할 수 있다. 두 모델 모두 Anthropic API, Amazon Bedrock, Google Cloud Vertex AI를 통해서도 이용 가능하며, 가격은 기존과 동일하게 Opus 4는 백만 토큰당 입력 15달러/출력 75달러, Sonnet 4는 입력 3달러/출력 15달러이다.

Source:

Latest News