谷歌正式发布了 Gemini 2.5 Flash-Lite,这标志着强大 AI 能力在开发者和企业之间变得更加易用和高效,迈出了重要一步。
这一新模型被称为“迄今为止谷歌最具成本效益且速度最快的 2.5 版本”,专为高并发、低延迟的操作场景进行了优化。Flash-Lite 以 2.5 家族中最低的延迟和成本进入市场,定位为对 1.5 和 2.0 Flash 旧版本的经济型升级。在大多数评测中,它表现更优,首次输出时间更短,解码速度(每秒生成 token 数)更高,非常适合大规模分类、摘要等高吞吐量任务。
作为推理模型,Flash-Lite 允许开发者通过 API 参数动态控制“思考预算”。与其他 Gemini 2.5 模型默认开启推理不同,Flash-Lite 为了优化成本和速度,默认关闭推理,只有在明确开启时才会启用。尽管如此,Flash-Lite 仍支持所有原生工具,包括 Google 搜索溯源、代码执行、URL 上下文和函数调用。
性能测试显示,Flash-Lite 相较于 Gemini 2.0 Flash,速度提升 1.5 倍且成本更低,尤其适合分类、翻译、智能路由等成本敏感型大规模任务。
与其他模型默认调用更强大(也更昂贵)推理工具不同,Flash-Lite 将推理能力的开关权交给开发者。用户可根据实际需求选择是否开启推理功能,而在保持高性价比的同时,Flash-Lite 的能力并未受限。
Gemini 2.5 Flash-Lite 现已在 Google AI Studio 和 Vertex AI 提供预览版,同时 2.5 Flash 和 Pro 的稳定版本也已上线。2.5 Flash 和 Pro 还可在 Gemini 应用中访问,谷歌还将定制版 2.5 Flash-Lite 和 Flash 引入了搜索服务。
Gemini 模型家族的这一战略性扩展,展现了谷歌致力于普及 AI 的决心,为不同场景下的复杂推理和大规模数据处理提供了性能、成本和速度兼顾的多样化选择。