谷歌通过Gemini向开发者开放AI计算机控制能力

谷歌正将Project Mariner的计算机控制能力集成至Gemini API和Vertex AI，赋能开发者构建能够自主导航并与网页界面交互的应用程序。Automation Anywhere、UiPath、Browserbase、Autotab、The Interaction Company和Cartwheel等公司已率先探索这些能力，预计今年夏天将向更多开发者开放。这一扩展标志着谷歌AI智能体技术的重大进步。

谷歌宣布对其Project Mariner AI系统进行重大扩展，通过Gemini API和Vertex AI平台将计算机控制能力开放给开发者。

Project Mariner首次亮相于2024年末，是谷歌旨在通过AI智能体彻底改变用户与数字界面交互方式的雄心之作。该系统能够理解并推理计算机屏幕上显示的信息，包括文本、图片、代码和网页表单，并可自主导航网站、完成复杂任务。

最新版本的Project Mariner已大幅升级，可在云端虚拟机上运行，类似于OpenAI和亚马逊的智能体。这种基于云的方式允许用户在Project Mariner于后台完成任务的同时处理其他项目，最多可同时执行十项不同操作，较此前仅能在浏览器中运行的版本有了显著提升。

多家公司已在探索Project Mariner的潜力，包括自动化领域的Automation Anywhere和UiPath，以及Browserbase、Autotab、The Interaction Company和Cartwheel。这些早期采用者正在利用该技术自动化以往需大量人工干预的复杂网页工作流。

谷歌还为Project Mariner引入了先进的安全措施，以防范如间接提示注入等威胁——即恶意指令被嵌入AI模型检索的数据中。谷歌表示，这些安全增强措施显著提升了Gemini在工具使用过程中的防护能力，使Gemini 2.5成为公司迄今最安全的模型家族。

预计今年夏天，Project Mariner的能力将向更广泛的开发者开放，有望彻底革新开发者构建可控制和交互计算机界面的AI应用的方式。该技术还将集成至谷歌搜索的AI模式，初期将用于处理购票、餐厅预订和本地预约等任务。

Source:

谷歌通过Gemini向开发者开放AI计算机控制能力

Latest News

字节跳动豆包AI现已支持实时视频辅助功能

一加弃用三段式开关，推出AI驱动的Plus Key按键

德国科技巨头联合竞逐欧盟支持的AI超级工厂

美国检方调查Builder.ai，微软支持的15亿美元AI初创公司破产前夕风暴再起

挪威1.8万亿美元主权基金：AI应用成为员工“硬性要求”

OpenTools.ai 推出面向科技专业人士的 AI 新闻聚合平台

Google为Gemini模型引入透明化思维摘要功能

谷歌将AI成本控制功能扩展至Gemini 2.5 Pro

谷歌通过Gemini向开发者开放AI计算机控制能力

Related Articles

字节跳动豆包AI现已支持实时视频辅助功能

Google为Gemini模型引入透明化思维摘要功能

谷歌将AI成本控制功能扩展至Gemini 2.5 Pro

Google借助Gemini AI翻译重启智能眼镜项目

Anthropic 的 Claude 4 模型树立全新 AI 编程标杆

Latest News

字节跳动豆包AI现已支持实时视频辅助功能

一加弃用三段式开关，推出AI驱动的Plus Key按键

德国科技巨头联合竞逐欧盟支持的AI超级工厂

美国检方调查Builder.ai，微软支持的15亿美元AI初创公司破产前夕风暴再起

挪威1.8万亿美元主权基金：AI应用成为员工“硬性要求”

OpenTools.ai 推出面向科技专业人士的 AI 新闻聚合平台

Google为Gemini模型引入透明化思维摘要功能

谷歌将AI成本控制功能扩展至Gemini 2.5 Pro