谷歌正通过将 Project Mariner 的计算机使用功能集成到 Gemini API 和 Vertex AI 平台,进一步扩展其 AI 能力,这标志着代理型 AI 系统开发的重大进展。
Project Mariner 首次亮相于 2024 年底,是谷歌 DeepMind 推出的研究原型,旨在通过网页浏览器探索人与智能体的交互。该系统能够观察浏览器中的内容,理解复杂目标,规划可执行步骤,并自主导航网站以完成任务。它还可同时处理多项操作,最新版本最多可并行完成十项不同任务。
多家科技公司已在探索 Project Mariner 的潜力。自动化流程领域的领导者 Automation Anywhere,以及以自动化平台著称的 UiPath,均为早期采用者。其他合作伙伴还包括开发 AI 浏览器自动化框架的 Browserbase、Autotab、The Interaction Company,以及 2023 年成立的文本转动画平台 Cartwheel。
通过与 Gemini API 和 Vertex AI 的集成,开发者将能够构建具备这些代理能力的应用程序。谷歌还大幅提升了安全防护能力,有效防御间接提示注入等威胁,使 Gemini 2.5 成为迄今最安全的模型系列。
目前,美国的 Google AI Ultra 订阅用户已可访问 Project Mariner,谷歌计划今夏为更多开发者开放访问权限。公司还将部分 Mariner 能力引入其他谷歌产品,包括 Search Labs 的 AI 模式,届时用户可实现如购买活动门票、预订餐厅等任务。
这一进展代表了用户与互联网交互方式的根本性转变,未来可能从直接操作网站转向将任务委托给 AI 智能体。随着这些能力的成熟,自动化有望在各行业实现变革,并为 AI 助手带来全新应用场景。