menu
close

谷歌Gemini 2.5 Pro进化为先进的世界模型

谷歌宣布计划将Gemini 2.5 Pro转变为一个高度复杂的“世界模型”,能够理解、模拟并在复杂环境中进行规划。这一进步将使AI能够通过建模世界的各个方面,像人类一样进行规划和想象新体验。公司还透露,Gemini 2.5 Flash现已全面开放,2.5 Pro也即将上线,两者均具备更强的安全性和如Deep Think等复杂推理新能力。
谷歌Gemini 2.5 Pro进化为先进的世界模型

谷歌在人工智能领域迈出了重要一步,计划将Gemini 2.5 Pro扩展为一个全面的“世界模型”,能够以类似人类认知的方式理解并模拟现实世界的各个方面。

世界模型代表了AI能力的根本性转变,其不仅仅局限于语言处理,而是能够构建物理环境的内部表征。该概念关注于智能体如何理解并建模外部交互环境,以提升其决策和规划能力。世界模型最初用于低层次物理交互的建模,如今已扩展到现实世界的模拟以及复杂、逼真环境的生成。

这些先进的AI系统通过利用包括图像、音频、视频和文本在内的大规模多模态数据集,来模拟真实世界环境。这一能力使AI能够预测各种行为的结果,增强其推理和规划能力。世界模型有效地弥合了原始数据与可操作洞察之间的鸿沟,促进了机器与环境之间更为直观的交互。

谷歌宣布正致力于将Gemini 2.5 Pro扩展为一个“能够通过理解和模拟世界的各个方面来制定计划并想象新体验的世界模型,就像大脑一样。” 这一发展标志着谷歌AI战略的重大进步,有望在多个领域实现更复杂的问题解决能力。

除了这一雄心勃勃的进化,谷歌还公布了Gemini模型家族的多项更新。Gemini 2.5 Flash现已向所有用户开放,升级版本将于六月初在Google AI Studio(面向开发者)和Vertex AI(面向企业)全面上线,随后是Gemini 2.5 Pro。

Gemini 2.5 Pro将配备Deep Think,这是一种为高度复杂的数学和编程任务设计的实验性推理模式。谷歌还为两款模型带来了新能力,包括更先进的安全防护。其全新的安全策略大幅提升了在工具使用过程中的间接提示注入攻击防护,使Gemini 2.5系列成为迄今为止最安全的模型系列。

随着AI领域竞争日益激烈,英伟达等公司以及World Labs等初创企业也在研发世界模型技术。正如大型语言模型之于ChatGPT等系统,世界模型则是虚拟世界模拟器的核心,可用于训练机器人和其他AI系统。这些工具能够生成3D环境和模拟,帮助机器人更好地理解、规划并导航其周围环境。

随着谷歌不断突破AI能力的边界,Gemini 2.5 Pro向世界模型的演进,预示着一个新时代的到来——人工智能不仅能够处理信息,还能以越来越接近人类的方式理解、预测并与世界互动。

Source:

Latest News