Googleは、Gemini 2.5 Flash-Liteを正式に発表し、開発者や企業にとってより強力で効率的なAIをより身近なものにする大きな進展となった。
新モデルは「これまでで最もコスト効率が高く、最速の2.5モデル」と位置づけられ、大量データ処理やレイテンシ重視の運用に最適化されている。Flash-Liteは2.5ファミリー内で最も低いレイテンシとコストを実現し、従来の1.5および2.0 Flashモデルからのコスト効率の高いアップグレードとして設計された。多くの評価指標でより高いパフォーマンスを示し、最初のトークンまでの時間短縮とトークン毎秒デコード速度の向上を両立。大規模な分類や要約など、高スループットなタスクに最適だ。
推論モデルとしてのFlash-Liteは、APIパラメータを通じて「思考予算」を動的に制御できる点が特徴。他のGemini 2.5モデルでは思考機能がデフォルトで有効だが、Flash-Liteはコストと速度を重視し、明示的に有効化しない限り思考機能をオフにしている。この最適化にもかかわらず、Google検索による根拠付け、コード実行、URLコンテキスト、ファンクションコールなど、すべてのネイティブツールをサポートしている。
パフォーマンステストでは、Flash-LiteはGemini 2.0 Flash比で1.5倍の高速化と低コストを実現。分類、翻訳、インテリジェントルーティングなど、コスト重視かつ大規模な運用に特に適している。他モデルがより高性能(かつ高コスト)な推論ツールをデフォルトで利用するのに対し、Flash-Liteはこのプロセスを開発者が制御可能。用途に応じて思考機能のオン・オフを切り替えられ、コスト効率を維持しつつも幅広いタスクに対応できる。
Gemini 2.5 Flash-Liteのプレビューは、Google AI StudioおよびVertex AIで利用可能となっており、2.5 FlashおよびProの安定版も同時に提供開始。2.5 FlashとProはGeminiアプリからもアクセスでき、Google検索にもFlash-LiteおよびFlashのカスタムバージョンが導入されている。
今回のGeminiモデルファミリーの拡充は、複雑な推論から大規模データ処理まで、用途に応じてパフォーマンス・コスト・速度のバランスを取った選択肢を提供し、AIの民主化を推進するGoogleの姿勢を示している。