menu
close

구글, 비용 민감형 AI를 위한 초고효율 Gemini 2.5 Flash-Lite 공개

2025년 7월 15일, 구글은 Gemini 2.5 시리즈 중 가장 비용 효율적이고 빠른 모델인 Flash-Lite를 공식 출시하며 Gemini 2.5 제품군을 확장했다. 이번 출시로 Gemini 2.5 Flash와 Pro 모델도 모든 사용자에게 일반 제공된다. Flash-Lite는 Gemini 2.5 라인업 중 최저 지연 시간과 비용을 유지하면서 대량 처리 작업에서 뛰어난 성능을 제공하도록 설계됐다.
구글, 비용 민감형 AI를 위한 초고효율 Gemini 2.5 Flash-Lite 공개

구글이 Gemini 2.5 Flash-Lite를 공식 출시하며, 개발자와 기업 모두에게 강력한 AI를 더욱 접근 가능하고 효율적으로 활용할 수 있는 새로운 전기를 마련했다.

새롭게 선보인 Flash-Lite는 '지금까지의 2.5 모델 중 가장 비용 효율적이고 빠른 모델'로, 대용량·저지연 작업에 최적화되어 있다. Flash-Lite는 2.5 모델군 중 가장 낮은 지연 시간과 비용을 자랑하며, 기존 1.5 및 2.0 Flash 모델 대비 비용 효율적인 업그레이드로 설계됐다. 대부분의 평가에서 더 나은 성능을 제공하며, 첫 토큰 생성까지의 시간이 짧고 초당 토큰 생성 속도도 높아, 대규모 분류나 요약 등 대량 처리 작업에 이상적이다.

추론 모델로서 Flash-Lite는 API 파라미터를 통해 '생각 예산(thinking budget)'을 동적으로 제어할 수 있다. 다른 Gemini 2.5 모델들은 기본적으로 '생각' 기능이 활성화되어 있지만, Flash-Lite는 비용과 속도 최적화를 위해 기본적으로 이를 비활성화하고 필요 시에만 활성화할 수 있다. 이러한 최적화에도 불구하고, Google Search 연동, 코드 실행, URL 컨텍스트, 함수 호출 등 모든 기본 도구를 지원한다.

성능 테스트 결과, Flash-Lite는 Gemini 2.0 Flash 대비 1.5배 빠르면서도 더 저렴한 비용을 자랑한다. 이에 따라 분류, 번역, 지능형 라우팅 등 비용에 민감한 대규모 작업에 특히 적합하다. 다른 모델들이 기본적으로 더 강력(그리고 더 비싼) 추론 도구를 사용할 수 있지만, Flash-Lite는 개발자가 이 과정을 직접 제어할 수 있도록 해준다. 사용자는 필요에 따라 '생각' 기능을 켜거나 끌 수 있으며, 비용 효율성에도 불구하고 Flash-Lite의 활용 범위에는 제한이 없다.

Gemini 2.5 Flash-Lite의 프리뷰는 Google AI Studio와 Vertex AI에서 2.5 Flash 및 Pro의 안정화 버전과 함께 제공된다. 2.5 Flash와 Pro는 Gemini 앱에서도 사용할 수 있으며, 구글은 2.5 Flash-Lite와 Flash의 커스텀 버전을 Search에도 도입했다.

이번 Gemini 모델군의 전략적 확장은, 복잡한 추론 작업부터 대규모 데이터 처리까지 다양한 용도에 맞춰 성능, 비용, 속도의 균형을 제공함으로써 AI의 대중화를 추구하는 구글의 의지를 보여준다.

Source:

Latest News