menu
close

谷歌通过Gemini向开发者开放AI计算机控制能力

谷歌正将Project Mariner的计算机控制能力集成至Gemini API和Vertex AI,赋能开发者构建能够自主导航并与网页界面交互的应用程序。Automation Anywhere、UiPath、Browserbase、Autotab、The Interaction Company和Cartwheel等公司已率先探索这些能力,预计今年夏天将向更多开发者开放。这一扩展标志着谷歌AI智能体技术的重大进步。
谷歌通过Gemini向开发者开放AI计算机控制能力

谷歌宣布对其Project Mariner AI系统进行重大扩展,通过Gemini API和Vertex AI平台将计算机控制能力开放给开发者。

Project Mariner首次亮相于2024年末,是谷歌旨在通过AI智能体彻底改变用户与数字界面交互方式的雄心之作。该系统能够理解并推理计算机屏幕上显示的信息,包括文本、图片、代码和网页表单,并可自主导航网站、完成复杂任务。

最新版本的Project Mariner已大幅升级,可在云端虚拟机上运行,类似于OpenAI和亚马逊的智能体。这种基于云的方式允许用户在Project Mariner于后台完成任务的同时处理其他项目,最多可同时执行十项不同操作,较此前仅能在浏览器中运行的版本有了显著提升。

多家公司已在探索Project Mariner的潜力,包括自动化领域的Automation Anywhere和UiPath,以及Browserbase、Autotab、The Interaction Company和Cartwheel。这些早期采用者正在利用该技术自动化以往需大量人工干预的复杂网页工作流。

谷歌还为Project Mariner引入了先进的安全措施,以防范如间接提示注入等威胁——即恶意指令被嵌入AI模型检索的数据中。谷歌表示,这些安全增强措施显著提升了Gemini在工具使用过程中的防护能力,使Gemini 2.5成为公司迄今最安全的模型家族。

预计今年夏天,Project Mariner的能力将向更广泛的开发者开放,有望彻底革新开发者构建可控制和交互计算机界面的AI应用的方式。该技术还将集成至谷歌搜索的AI模式,初期将用于处理购票、餐厅预订和本地预约等任务。

Source:

Latest News