menu
close

구글, 초고효율 Flash-Lite로 Gemini 2.5 제품군 확장

구글이 Gemini 2.5 Flash와 Pro를 정식 출시하며 Gemini 2.5 제품군을 확장했다. 동시에 가장 비용 효율적이고 빠른 2.5 모델인 Flash-Lite를 미리보기(preview)로 선보였다. Flash-Lite는 '사고(thinking)' 기능이 기본적으로 꺼진 상태로, 비용과 속도에 최적화된 추론 모델로, 모델 지능이 덜 필요한 지연 민감형(latency-sensitive) 사용 사례에 더욱 저렴한 옵션을 제공한다. 한편, Gemini 2.5 Pro는 WebDev Arena와 LMArena 리더보드에서 세계 최고 모델로 등극하며 구글의 AI 기술 진보를 입증했다.
구글, 초고효율 Flash-Lite로 Gemini 2.5 제품군 확장

구글은 Gemini 2.5 Flash와 2.5 Pro가 이제 안정화되어 정식 출시되었으며, 이를 통해 기업들이 미션 크리티컬한 애플리케이션에 첨단 AI 기능을 신뢰성 있게 대규모로 도입할 수 있게 됐다고 발표했다. 이와 함께, 구글은 자사 2.5 모델 중 가장 비용 효율적이고 빠른 Flash-Lite를 미리보기로 공개했다.

Gemini 2.5 Flash-Lite는 API 파라미터로 사고(thinking) 예산을 동적으로 제어할 수 있는 추론 모델이다. 2.5 제품군의 다른 모델과 달리, Flash-Lite는 비용과 속도에 최적화되어 있으며, 기본적으로 '사고' 기능이 꺼져 있다. 이러한 최적화에도 불구하고, 구글 검색 연동(Grounding), 코드 실행, URL 컨텍스트, 함수 호출 등 모든 네이티브 도구를 지원한다.

Flash-Lite는 이전 Flash-Lite 모델보다 더 높은 성능을 제공하며, 2.0 Flash 대비 1.5배 빠르면서도 비용은 더 저렴하다. 특히 번역, 분류, 지능형 라우팅 등 대규모, 지연 민감형, 비용 민감형 작업에 최적화되어 있다. 또한, 코딩, 수학, 과학, 추론, 멀티모달 벤치마크에서 2.0 Flash-Lite 대비 현저히 향상된 성능을 보여, 대량 작업에 이상적이다.

Gemini 2.5 제품군의 다른 모델과 마찬가지로, Flash-Lite는 다양한 예산에서 사고 기능을 켜고 끌 수 있으며, 구글 검색 연동, 코드 실행, 멀티모달 입력, 100만 토큰 컨텍스트 길이 등 유용한 기능을 제공한다. Flash-Lite는 응답의 최신성과 사실성을 보장하기 위해 구글 검색을 내장 도구로 활용하며, 언제 검색을 사용할지 지능적으로 판단한다.

Flash-Lite 출시 외에도, 구글은 Gemini 2.5 Pro가 WebDev Arena 코딩 리더보드에서 ELO 점수 1415로 1위를 차지하고, LMArena의 모든 리더보드에서도 선두를 달리고 있다고 밝혔다. LMArena는 다양한 차원에서 인간 선호도를 측정하는 벤치마크다. 또한, 구글은 LearnLM을 Gemini 2.5에 직접 통합해 세계 최고의 학습 모델로 만들었다. 최신 보고서에 따르면, Gemini 2.5 Pro는 학습 과학 원리의 모든 범주에서 경쟁 모델을 능가했으며, 교육자와 교육학 전문가들이 다양한 학습 시나리오에서 타사 모델보다 선호하는 것으로 나타났다.

Gemini 2.5 Flash-Lite는 현재 Google AI Studio와 Vertex AI에서 미리보기로 제공되며, 2.5 Flash 및 Pro의 안정화 버전도 함께 이용할 수 있다. 개발자들은 Google Gen AI SDK를 통해 gemini-2.5-flash-lite-preview-06-17 모델에 접근할 수 있으며, 이 SDK는 Gemini Developer API와 Vertex AI Gemini API를 통해 Gemini 2.5 제품군에 통합된 인터페이스를 제공한다.

Source:

Latest News