menu
close

구글, 고급 추론 기능 탑재한 Gemini 2.5 Flash 공개

구글이 빠르고 비용 효율적인 AI 모델의 최신 버전인 Gemini 2.5 Flash를 프리뷰(미리보기) 형태로 출시했다. 이번 버전은 하이브리드 추론 기능을 도입해 개발자가 모델의 사고 과정을 직접 제어할 수 있으면서도 속도와 효율성을 유지한다. 프리뷰는 현재 Google AI Studio, Vertex AI, Gemini 앱에서 제공되며, 2025년 6월 초에 정식 출시될 예정이다.
구글, 고급 추론 기능 탑재한 Gemini 2.5 Flash 공개

구글이 성능, 속도, 비용 효율성의 균형을 목표로 설계된 AI 모델의 최신 버전인 Gemini 2.5 Flash 프리뷰를 공개했다.

Gemini 2.0 Flash의 기반 위에 구축된 이번 2.5 Flash 모델은 효율성을 유지하면서도 추론 능력에서 대폭적인 업그레이드를 이뤘다. 구글은 이를 "추론 능력에서의 대규모 업그레이드이면서도 여전히 속도와 비용을 우선시한다"고 설명했다.

Gemini 2.5 Flash의 핵심은 하이브리드 추론 시스템이다. 구글 최초의 완전 하이브리드 추론 모델로, 개발자가 사고(추론) 기능을 켜거나 끌 수 있고, 사고 예산을 설정해 품질, 비용, 지연 시간 간의 균형을 최적화할 수 있다. 이 혁신적인 접근 방식은 개발자에게 복잡한 작업 처리 방식을 전례 없는 수준으로 제어할 수 있게 해준다.

실제로 개발자는 모델이 수행하는 추론의 양을 조절하는 "사고 예산"을 지정할 수 있다. Google AI Studio와 Vertex AI의 슬라이더나 API 파라미터를 통해 모델이 사고 중 생성할 수 있는 토큰 수를 0에서 24,576까지 조절할 수 있다. 사고 예산이 0으로 설정되면, 모델의 비용과 지연 시간은 Gemini 2.0 Flash와 동일하다.

이러한 유연성은 가격 정책에도 반영된다. 추론 기능 없이 입력 토큰은 백만 개당 15센트, 출력 토큰은 백만 개당 60센트이며, 사고 기능을 활성화하면 백만 토큰당 3.50달러로 증가한다.

벤치마크 테스트 결과도 인상적이다. Gemini 2.5 Flash는 "LMArena의 Hard Prompts에서 2.5 Pro에 이어 두 번째로 강력한 성능을 보였으며, 비용과 크기가 훨씬 적으면서도 주요 경쟁 모델과 유사한 지표를 기록했다." 또한 "가격 대비 성능 비율이 가장 뛰어난 모델로 계속 선두를 유지하고 있다."

구글은 2.5 Flash를 "속도와 저비용에 최적화된 가장 효율적인 주력 모델"로 소개하며, "추론, 멀티모달, 코드, 장문 컨텍스트 등 주요 벤치마크에서 성능이 향상됐고, 평가 기준에서 토큰 사용량도 20~30% 절감됐다"고 밝혔다.

새 모델은 현재 여러 채널을 통해 프리뷰로 제공되고 있다. "Google AI Studio(개발자용), Vertex AI(기업용), Gemini 앱(일반 사용자용)에서 순차적으로 출시 중"이다. 구글의 I/O 2025 발표에 따르면, 업데이트된 버전은 "2025년 6월 초에 Google AI Studio(개발자용)와 Vertex AI(기업용)에서 정식 출시"될 예정이며, Gemini 2.5 Pro도 "곧이어 출시"될 계획이다.

구글이 AI 역량을 지속적으로 확장하는 가운데, Gemini 2.5 Flash는 고급 추론을 개발자와 사용자 모두에게 더욱 쉽게, 그리고 비용 효율적으로 제공하는 데 중요한 이정표가 될 전망이다.

Source:

Latest News