Anthropic于2025年5月22日正式发布了其新一代AI模型——Claude Opus 4与Claude Sonnet 4,这标志着人工智能能力的重大飞跃。
作为旗舰产品,Claude Opus 4被Anthropic称为“全球最佳编程模型”。该模型在SWE-bench上取得了72.5%的高分,在Terminal-bench上也达到43.2%,能够在需要数千步专注努力的长时间任务中持续保持高性能。Opus 4可连续工作数小时,远超以往Sonnet系列,极大拓展了AI智能体的能力边界。
Claude Sonnet 4则是对Sonnet 3.7的重大升级,具备更强的编程与推理能力,并能更精准地响应用户指令。 值得一提的是,Sonnet 4在SWE-bench上取得了72.7%的成绩,并通过并行测试计算,准确率可达80.2%,在编程表现上甚至优于更大的Opus 4模型。Anthropic表示,该模型在“性能与效率之间取得平衡,适用于内部及外部多种场景,并通过增强可控性提升实现的灵活度”。
两款新模型均引入了强大的新特性,包括结合工具实现的深度思考,使Claude能够在推理与工具使用之间切换以优化回答。它们可并行调用工具,更精准地遵循指令,并在开发者授权访问本地文件时,展现出显著提升的记忆能力,能够提取并保存关键信息,持续积累隐性知识。
这些模型能够在“记忆”中提取并保存事实,更可靠地完成任务,随着时间推移不断积累Anthropic所称的“隐性知识”。 Opus 4与Sonnet 4均为“混合型”模型,既能实现近乎即时的响应,也能通过延长思考实现更深层次的推理。在推理模式下,模型会花更多时间权衡多种解决方案,并以“用户友好”的方式总结其思考过程。
两款模型已在Anthropic API、Amazon Bedrock及Google Cloud的Vertex AI上线。定价与前代Opus和Sonnet保持一致:Opus 4为每百万tokens输入/输出分别为15美元/75美元,Sonnet 4为3美元/15美元。 针对个人用户,Anthropic提供分级订阅方案。免费版可访问Claude Sonnet 4,但每日有使用上限;Pro版(20美元/月或200美元/年)则提供约5倍于免费版的使用额度,可通过模型选择器访问Claude 4 Sonnet与Claude 4 Opus,并在高峰时段享有优先访问权。
Claude 4的发布,标志着大语言模型进入新时代。新一代产品拥有20万token上下文窗口、业界领先的编程与推理基准,以及为复杂、高风险、动态现实场景量身打造的安全框架,为企业、科研及创意应用带来质的飞跃。