Anthropic 在 5 月 22 日举办的“Code with Claude 2025”开发者大会上,正式发布了新一代 AI 模型 Claude Opus 4 和 Claude Sonnet 4。这两款模型代表了公司迄今为止最重大的技术飞跃,尤其在软件工程和自主智能体能力方面表现突出。
Claude Opus 4 被定位为“全球最佳编程模型”,在 SWE-bench 编程基准测试中取得了 72.5% 的高分,超越了 OpenAI 的 GPT-4.1(54.6%)和 Google 的 Gemini 2.5 Pro。在乐天(Rakuten)的测试中,Opus 4 展现出近 7 小时的自主编程能力,远超以往 AI 模型仅能维持数分钟注意力的表现。
两款模型均采用混合推理系统,既可实现近乎即时的响应,也支持逐步深入的长时推理。它们能够并行调用多种工具,包括网页搜索,并在获得本地文件访问权限时,能够提取和存储关键信息,逐步构建 Anthropic 所称的“隐性知识”。
Claude Sonnet 4 在今年 2 月发布的 Sonnet 3.7 基础上进一步提升,具备更强的问题解决能力和更优的指令遵循性。该模型面向所有 Claude 用户开放,包括免费用户;而 Opus 4 仅限 Pro、Max、Team 和 Enterprise 计划用户使用。
此次发布正值 Anthropic 快速增长之际,2025 年第一季度年化收入翻倍至 20 亿美元,年消费超过 10 万美元的客户数量增长了八倍。公司近期还获得了 25 亿美元的信用额度,用于加速 AI 研发。
尽管取得了技术突破,Anthropic 仍为 Claude Opus 4 实施了严格的安全措施,在内部测试发现潜在风险后,将其归类为 AI 安全等级 3(ASL-3)。两款模型均可通过 Anthropic API、Amazon Bedrock 及 Google Cloud 的 Vertex AI 获取,Opus 4 定价为每百万 tokens 15/75 美元,Sonnet 4 为 3/15 美元。