혁신적인 연구 결과가 AI 코딩 어시스턴트가 개발자 생산성을 전반적으로 높인다는 기존의 통념에 도전장을 내밀었다.
모델 평가 및 위협 연구(METR)는 2025년 초 AI 도구가 숙련된 오픈소스 개발자들이 자신의 저장소에서 작업할 때 생산성에 어떤 영향을 미치는지 무작위 대조 실험을 통해 측정했다. 놀랍게도, 개발자들이 AI 도구를 사용할 때 오히려 19% 더 오래 걸렸으며, AI가 실제로 작업 속도를 늦춘 것으로 나타났다.
연구진은 평균 100만 줄 이상의 코드와 22,000개 이상의 GitHub 스타를 보유한 성숙한 저장소에서 16명의 숙련된 오픈소스 개발자들이 246개의 실제 코딩 과제를 수행하는 과정을 추적했다. 각 과제는 AI 도구 사용 허용 여부에 따라 무작위로 배정되었으며, 개발자들은 주로 2025년 2월부터 6월까지 Cursor Pro와 Claude 3.5, 3.7 Sonnet을 활용했다.
이 결과는 연구 참가자들조차도 놀라게 했다. 작업을 마친 후 개발자들은 AI가 자신의 생산성을 20% 높였다고 추정했으나, 실제 데이터는 19% 감소를 보여주었다. 이는 사람들이 AI가 업무 속도를 높였다고 느낄 때, 실제 영향과 완전히 다를 수 있음을 시사한다.
METR 연구진은 작업 속도 저하의 몇 가지 원인을 지적했다. 개발자들은 실제 코딩보다 AI에 프롬프트를 입력하고 응답을 기다리는 데 훨씬 더 많은 시간을 소모했다. 이번 연구는 2025년 AI 코딩 도구가 약속하는 보편적 생산성 향상에 대해 중요한 의문을 제기한다.
하지만, 이것이 AI 도구가 전반적으로 비효율적이라는 의미는 아니다. METR는 익숙하지 않은 코드베이스, 초기 단계 프로젝트, 혹은 경험이 적은 프로그래머의 경우 AI가 오히려 작업 속도를 높일 수 있다고 지적한다. 연구진은 이러한 사례를 다루기 위한 후속 연구도 계획 중이다. 또한, 이번 결과는 2025년 초반 도구의 한 시점에 대한 스냅샷일 뿐이며, 더 빠른 모델, 더 나은 통합, 향상된 프롬프트 활용법이 도입된다면 결과가 달라질 수 있다고 강조했다.
AI 어시스턴트를 도입하려는 팀에게 이번 연구가 주는 메시지는 명확하다. AI 코딩 도구는 계속 진화하고 있지만, 현재 형태로는 특히 이미 잘 아는 코드에서 작업하는 숙련된 엔지니어에게 속도 향상을 보장하지 않는다. 조직은 도구를 신뢰하기 전에 실제 환경에서 효과를 측정하고, 체감 속도만을 맹신하지 말아야 한다.