谷歌通过为 Gemini 推出代理模式(Agent Mode),正在推动 AI 助手能力的边界,实现从被动的问答系统向能够自主完成任务的主动代理的根本性转变。
在 Google I/O 2025 上发布的代理模式,允许用户只需陈述目标,Gemini 就能智能地规划并执行实现目标所需的步骤。该功能融合了实时网页浏览、深度研究以及与 Google 应用的智能集成,能够以极少的用户干预完成复杂的多步骤任务。
“想象一下,你只需说明你的目标,Gemini 就能智能地规划并完成实现目标的所有步骤。”谷歌在发布会上这样解释。这项技术基于 Project Mariner——谷歌的实验性 AI 代理,能够理解并推理浏览器屏幕上的信息,包括文本、图片、表单及其他网页元素。
谷歌还将 Project Mariner 的计算机使用能力引入 Gemini API 和 Vertex AI,使开发者能够构建具备代理特性的应用。目前,Automation Anywhere、UiPath、Browserbase、Autotab、The Interaction Company 以及 Cartwheel 等公司已在探索其潜力,谷歌计划于今年夏天向更多开发者开放。
该技术展现了诸多强大能力,包括“教与复现”功能:用户只需演示一次任务,AI 即可学习并在未来自动完成类似任务。在实际应用中,代理模式可以帮助用户寻找公寓——自动在 Zillow 等网站搜索房源、调整筛选条件,甚至根据用户需求安排看房。
这一进步标志着用户与 AI 助手交互方式的重大演变。用户无需为每一步下达具体指令,而是可以将整个目标委托给 Gemini,由其自主判断并执行所需操作。代理模式的实验版本即将向 Google AI Ultra 订阅用户开放,谷歌强调在整个体验过程中保障用户的控制权、透明度与安全性。