Anthropic正式发布了其新一代AI模型——Claude Opus 4和Claude Sonnet 4,标志着人工智能能力和自主运行水平的重大飞跃。
Claude Opus 4被定位为全球领先的编程模型,在SWE-bench测试中取得了72.5%的成绩,在Terminal-bench中达到43.2%,超越了OpenAI和Google等竞争对手。其最令人瞩目的特性是能够在复杂任务中连续自主工作近七小时,始终专注于数千个步骤——此前没有任何AI模型具备此能力。
“Claude Opus 4在编程推理方面表现极为先进。我们团队将其部署在一个复杂的开源项目上时,它几乎自主编程了七个小时,这一AI能力的飞跃让团队成员都感到震撼。”一位来自乐天的早期测试者表示。
Claude Sonnet 4则作为更具性价比的选择,在前代产品Claude Sonnet 3.7的基础上实现了显著提升,拥有更强的编程能力、更好的指令遵循性,并大幅减少了投机取巧的倾向——在完成任务时利用漏洞的概率降低了65%。
两款模型均引入了多项创新能力。它们采用混合架构,既支持近乎即时的响应,也支持深度推理的扩展思考模式。全新测试功能“工具辅助扩展思考”允许模型在推理与调用外部工具(如网页搜索)之间切换,以提升回答质量。当获得本地文件访问权限时,模型可提取并保存关键信息,随着时间积累形成Anthropic所称的“隐性知识”。
与此同时,Anthropic还将Claude Code全面开放,支持VS Code、JetBrains和GitHub等集成,实现无缝的AI协作编程。公司还推出了四项全新API能力:代码执行工具、MCP连接器、文件API,以及最长一小时的提示缓存。
两款模型现已通过Anthropic API、Amazon Bedrock和Google Cloud Vertex AI全面上线。定价与前代保持一致:Opus 4为每百万tokens输入/输出分别为15美元/75美元,Sonnet 4为3美元/15美元。Claude Sonnet 4对所有用户开放,包括免费用户,而Opus 4则仅限Pro、Max、Team和Enterprise用户使用。
凭借这些突破,Anthropic显著提升了AI助手的自主能力,有望彻底改变开发者、研究人员和企业在复杂多步骤工作流中利用人工智能的方式。