谷歌宣布为其旗舰AI模型带来重大突破,推出了Gemini 2.5 Pro的Deep Think(深度思考)模式,标志着AI推理能力的一次重大飞跃。
Deep Think利用了前沿的并行思维技术研究,使模型能够在给出回应前,同时探索和评估多种潜在解决方案。这种方法模拟了人类专家解决复杂问题时,从多个角度和假设进行思考的过程。
“它采用了我们在推理领域的最新前沿研究——包括并行思维技术——带来了令人难以置信的表现,”谷歌DeepMind首席执行官Demis Hassabis在2025年Google I/O大会上表示。
新模式在多个高难度基准测试中表现卓越。在2025年美国数学奥林匹克(USAMO)这一公认最难的数学基准测试中获得了令人瞩目的高分。Deep Think还在面向竞赛级编程的LiveCodeBench基准上表现领先,并在多任务多模态推理测试MMMU中取得了84%的高分。
除了Deep Think,谷歌还大幅提升了Gemini 2.5系列的安全性。公司为模型增加了先进的防护措施,以抵御间接提示注入攻击——即恶意指令被嵌入AI模型检索到的数据中。谷歌表示,新的安全方案大幅提升了Gemini在工具使用场景下对这类攻击的防护率,使2.5系列成为谷歌迄今最安全的模型家族。
谷歌在Deep Think的推广上采取了谨慎态度。“由于我们正在用2.5 Pro DeepThink定义前沿,我们会花更多时间进行前沿安全评估,并征求安全专家的进一步意见,”公司方面表示。Deep Think将首先通过Gemini API向受信任的测试者开放,以收集反馈,随后再逐步扩大开放范围。
此外,谷歌还宣布对Gemini 2.5 Flash进行了升级。作为一款主打高效、低成本的模型,新版本在推理、多模态、代码和长上下文基准测试中表现更优,同时令Token消耗减少了20-30%。