구글은 올해 초 Gemini 2.5 Flash에 성공적으로 도입한 혁신적인 '생각 예산' 기능을 자사의 최첨단 AI 추론 모델인 Gemini 2.5 Pro로 확장한다고 발표했다.
생각 예산 기능은 복잡한 문제를 추론하는 데 할당되는 연산 자원을 개발자가 정밀하게 제어할 수 있게 해주는 AI 비용 관리의 중요한 진전이다. 이 기능을 통해 사용자는 응답 생성 전 내부 추론에 사용할 최대 토큰 수를 지정하거나, 단순 작업의 경우 추론 기능을 완전히 꺼버릴 수도 있다.
구글은 공식 발표에서 "2.5 Flash에 생각 예산을 도입해 개발자들이 지연 시간과 품질을 조율하며 비용을 더 잘 관리할 수 있도록 했고, 이제 이 기능을 2.5 Pro로 확장한다"고 밝혔다. 구글은 Gemini 2.5 Pro의 예산 기능이 몇 주 내로 안정적인 상용 환경에서 일반 제공될 예정이라고 덧붙였다.
이러한 발전은 오늘날 AI 시장의 근본적인 과제, 즉 고도화된 추론이 지연 시간과 비용을 모두 증가시키는 문제를 해결한다. 예를 들어 Gemini 2.5 Flash에서 추론 기능을 활성화하면 출력 비용이 백만 토큰당 0.60달러에서 3.50달러로 약 6배 가까이 증가한다. 생각 예산을 도입함으로써 기업은 구체적인 사용 사례에 따라 AI 활용을 최적화하고, 필요한 경우에만 추론을 활성화할 수 있다.
이 기능은 특히 고급 기능을 활용하면서도 AI 도입 비용을 세밀하게 관리해야 하는 엔터프라이즈 고객에게 유용하다. 예를 들어 언어 번역이나 기본 정보 검색 등 단순 질의에는 추론을 비활성화해 비용 효율을 극대화할 수 있고, 수학 문제 해결이나 정교한 분석 등 다단계 추론이 필요한 복잡한 작업에는 추론 기능을 활성화해 세밀하게 조정할 수 있다.
AI가 점점 더 비즈니스 워크플로우에 깊이 통합됨에 따라, 구글의 맞춤형 추론 접근법은 비용 최적화와 성능 조율이 원시적 기능만큼이나 중요한 성숙한 시장의 도래를 보여준다. 이는 생성형 AI 기술의 상업화가 새로운 단계에 접어들었음을 시사한다.