Google DeepMind正在致力于将其最先进的多模态基础模型Gemini 2.5 Pro转变为所谓的“世界模型”——一种能够以模拟人类认知过程的方式理解和模拟现实世界各个方面的AI系统。
在Google I/O 2025大会上宣布的这一雄心勃勃的计划,旨在打造一种能够通过建模世界运行方式来制定计划、想象新体验的AI。DeepMind首席执行官Demis Hassabis表示,这项能力代表了人工智能领域的一项根本性突破,超越了简单的分类和预测。
Hassabis在最近的一篇博客文章中解释道:“这就是为什么我们正在努力扩展我们最优秀的多模态基础模型Gemini 2.5 Pro,使其成为一个‘世界模型’,能够像大脑一样,通过理解和模拟世界的各个方面来制定计划、想象新体验。”
Google已经在Gemini展现的早期世界建模能力中看到了迹象,例如其对自然环境的表达和模拟能力、通过Veo模型理解直观物理学,以及通过Gemini Robotics教机器人抓取物体和执行指令。
公司将这一进展描述为迈向“通用AI助手”的关键一步——一种能够理解上下文、在任何设备上进行规划和执行操作的智能系统。Google的最终愿景是将Gemini应用转变为能够完成日常任务、处理行政工作并提供个性化推荐的助手。
这种世界模型能力是在Gemini 2.5 Pro已具备的强大推理能力基础上进一步提升的。该模型目前在复杂数学、科学和编程任务的基准测试中处于领先地位,并在LMArena和WebDev Arena排行榜上排名第一,这些排行榜衡量人类对AI交互的偏好。
Google计划将这些世界模型能力与Project Mariner和Project Astra的技术整合,前者专注于多任务处理,后者专注于视觉理解。增强版Gemini 2.5 Pro预计将在2025年6月正式发布,目前正处于预览阶段。