Google 正在将其最先进的 AI 模型 Gemini 2.5 Pro 转变为所谓的“世界模型”——一个能够以类人脑方式理解和模拟现实各个方面的系统。
根据 Google DeepMind 在 Google I/O 2025 上的最新宣布,这一世界模型能力将使 Gemini 能够通过理解和模拟世界的各个方面来制定计划、想象新体验。这标志着 AI 在理解和应对复杂环境方面能力的重大进化。
Google 在其官方博客中表示:“正因如此,我们正在努力将我们最强大的多模态基础模型 Gemini 2.5 Pro 拓展为‘世界模型’,使其能够像大脑一样,通过理解和模拟世界的各个方面来制定计划、想象新体验。”
世界模型方法建立在 Google 在训练 AI 智能体掌握复杂游戏和创建交互式模拟方面的广泛研究基础之上。这些能力已经在 Gemini 利用世界知识和推理能力来表征自然环境、理解直观物理学,以及指导机器人即时适应和执行指令等方面初现端倪。
这一进化的核心是全新的 Deep Think(深度思考)功能,这是 Gemini 2.5 Pro 的一项实验性增强推理模式。Deep Think 让模型在作答前能够权衡多种假设,大幅提升其在复杂数学和编程任务上的表现。该功能已在 2025 年 USAMO 数学竞赛和 LiveCodeBench 编程基准等高难度测试中取得了优异成绩。
目前,搭载 Deep Think 的 Gemini 2.5 Pro 已通过 Gemini API 向受信任的测试者开放,Google 正在进行更多安全评估,随后将面向更广泛用户发布。同时,标准版 Gemini 2.5 Pro 预计将于 2025 年 6 月底全面上线,此前 Gemini 2.5 Flash 已率先发布。
这一向世界建模迈进的进展,是 Google 打造通用 AI 助手宏伟愿景的一部分。未来,这一助手将能够理解上下文、高效规划、跨设备执行任务,最终彻底改变人类与 AI 系统的交互方式。