Google通过Gemini赋能开发者，实现AI对计算机的直接控制

Google正将Project Mariner的计算机使用能力集成到Gemini API和Vertex AI中，使AI能够直接与计算机系统交互并进行控制。这一进展让AI能够自主完成复杂的网页任务，Automation Anywhere、UiPath和Browserbase等公司已在探索其潜力。该技术预计将在今夏向开发者更广泛开放，标志着AI辅助自动化迈出了重要一步。

Google宣布将Project Mariner的计算机使用功能集成进Gemini API和Vertex AI平台，标志着AI与数字环境（尤其是网页浏览器和计算机系统）交互方式的重大演进。

Project Mariner最初于2024年底作为Google DeepMind的研究原型亮相，如今已大幅升级为强大的AI代理系统。新版系统可同时处理多达十项不同任务，并通过云端虚拟机运行，而非直接在用户浏览器中操作。这意味着用户可以在AI于后台完成任务的同时继续自己的工作。

该技术使AI能够观察屏幕显示内容，理解复杂目标，规划可执行步骤，并通过与网站和应用的交互来完成任务。AI可执行的任务范围广泛，包括信息检索、预订、填写表单，甚至在用户确认下完成购物。

多家公司已开始探索这一技术的潜力。Automation Anywhere和UiPath正在将其应用于业务流程自动化，而Browserbase、Autotab、The Interaction Company和Cartwheel等新兴企业则在开发创新应用。Google计划于今年夏天将这些能力更广泛地开放给开发者。

Google CEO桑达尔·皮查伊在Google I/O 2025主题演讲中表示：“计算机使用是我们为代理生态系统繁荣所需构建的一系列工具的一部分。”公司还在研发如Agent2Agent协议等配套技术，以实现AI代理间的通信。

这一技术的影响深远。对于企业而言，它有望通过自动化重复性任务提升生产力；对开发者来说，开启了创建AI辅助工作流和可与现有软件交互应用的新可能；而对终端用户，未来有望彻底改变他们完成日常数字任务的方式，让AI承担更多繁琐工作。

目前，Project Mariner仅向美国地区的Google AI Ultra订阅用户开放，服务月费为249.99美元。然而，随着技术成熟并在2025年集成进更多Google产品，其影响力有望在整个数字领域得到体现。

Source:

Google通过Gemini赋能开发者，实现AI对计算机的直接控制

Latest News

字节跳动豆包AI现已支持实时视频辅助功能

一加弃用三段式开关，推出AI驱动的Plus Key按键

德国科技巨头联合竞逐欧盟支持的AI超级工厂

美国检方调查Builder.ai，微软支持的15亿美元AI初创公司破产前夕风暴再起

挪威1.8万亿美元主权基金：AI应用成为员工“硬性要求”

OpenTools.ai 推出面向科技专业人士的 AI 新闻聚合平台

谷歌通过Gemini向开发者开放AI计算机控制能力

Google为Gemini模型引入透明化思维摘要功能

Google通过Gemini赋能开发者，实现AI对计算机的直接控制

Related Articles

字节跳动豆包AI现已支持实时视频辅助功能

谷歌通过Gemini向开发者开放AI计算机控制能力

Google为Gemini模型引入透明化思维摘要功能

Anthropic 的 Claude 4 模型树立全新 AI 编程标杆

Google在全美范围内扩展AI模式搜索，推出多项先进功能

Latest News

字节跳动豆包AI现已支持实时视频辅助功能

一加弃用三段式开关，推出AI驱动的Plus Key按键

德国科技巨头联合竞逐欧盟支持的AI超级工厂

美国检方调查Builder.ai，微软支持的15亿美元AI初创公司破产前夕风暴再起

挪威1.8万亿美元主权基金：AI应用成为员工“硬性要求”

OpenTools.ai 推出面向科技专业人士的 AI 新闻聚合平台

谷歌通过Gemini向开发者开放AI计算机控制能力

Google为Gemini模型引入透明化思维摘要功能