OpenAI 在人工智能领域迈出了重要一步,推出了 ChatGPT Agent,这是一套能够利用自身虚拟计算机独立完成复杂任务的系统。
新代理于 2025 年 7 月 17 日发布,代表了一种统一的方法,将原本分离的三项能力整合在一起:Operator 的网页点击、滚动和输入交互能力;deep research 跨网页信息整合与分析能力;以及 ChatGPT 的对话智能。这一整合解决了早期工具各自为战、难以完成端到端工作流的局限。
ChatGPT Agent 由 OpenAI 旗舰多模态模型 GPT-4o 驱动,能够处理诸如“分析三家竞争对手并制作演示文稿”或“查看我的日历,并根据最新新闻简要汇报即将到来的客户会议”等复杂请求。系统可通过视觉和文本方式导航网页,填写表单,在用户授权下访问账户,执行代码,并生成包括电子表格和演示文稿在内的可编辑文档。
在基准测试中,ChatGPT Agent 的表现远超以往 OpenAI 工具。在投行分析师建模任务中,其成绩优于 deep research 和 o3 模型;在难以查找信息的 BrowseComp 基准测试中,取得了 68.9% 的新纪录,比 deep research 高出 17.4 个百分点。
尽管功能强大,OpenAI 强调用户始终掌控全局。代理在执行关键操作前会请求用户许可,用户可随时中断、接管浏览器或终止任务。从即日起,Pro、Plus 和 Team 用户可通过工具下拉菜单,在任意对话中选择“代理模式”以启用相关功能。
此次发布标志着 OpenAI 迄今为止最大胆的尝试,将 ChatGPT 从问答工具转型为可执行操作、分担复杂任务的智能代理产品。尽管早期 AI 代理在复杂任务上表现有限,OpenAI 表示 ChatGPT Agent 的能力已远超以往,并计划持续改进,让其变得越来越实用。