menu
close

Anthropic 的 Claude 4 模型树立全新 AI 编码基准

Anthropic 推出了迄今为止最先进的 AI 模型——Claude Opus 4 和 Claude Sonnet 4,在编码、推理和自主工作方面树立了新标准。Claude Opus 4 展现出前所未有的持久力,能够在复杂任务中自主工作近七小时,几乎接近完整的工作日。这两款模型具备混合推理能力、网页搜索集成和增强的记忆保持能力,标志着从聊天机器人向自主 AI 智能体的重大进化。
Anthropic 的 Claude 4 模型树立全新 AI 编码基准

Anthropic 于 2025 年 5 月 22 日发布了新一代 AI 模型,推出了 Claude Opus 4 和 Claude Sonnet 4,其能力突破了 AI 系统在无人干预下所能实现的极限。

据 Anthropic 称,Claude Opus 4 是“全球最强编码模型”,在严格的软件工程基准测试 SWE-bench 上取得了 72.5% 的突破性成绩,该测试衡量模型在真实编码任务中的表现。在乐天的测试中,该模型展现出惊人的持久力,能够在一个复杂的开源项目上自主工作近七小时——远超以往 AI 模型仅能持续几分钟的注意力跨度。

Claude Sonnet 4 作为 Opus 4 的高效替代方案,在编码和推理能力上也优于前代 Claude Sonnet 3.7。令人惊讶的是,它在 SWE-bench 上的得分更高,达到 72.7%,超越了 OpenAI 的 Codex-1(72.1%)和谷歌的 Gemini 2.5 Pro(63.2%)。

这两款模型均具备混合推理能力,能够在几乎即时响应与长时间深度思考之间切换,实现更深入的推理。在思考过程中,它们可以调用网页搜索等工具,并在获得本地文件访问权限时,提取并保存关键信息,从而保持上下文连续性并逐步积累知识。

新模型代表了 AI 功能的范式转变,从简单的聊天机器人进化为能够自主处理复杂、多步骤工作流的智能体,单次任务可跨越数千步骤。这一进化使 AI 能够从项目构思到完成,持续数小时地保持上下文,处理整天的工作任务。

Claude Sonnet 4 向所有 Claude 用户开放,包括免费用户;而 Claude Opus 4 仅对 Pro、Max、Team 和 Enterprise 计划订阅者开放。两款模型均可通过 Anthropic API、Amazon Bedrock 及 Google Cloud 的 Vertex AI 使用,定价与前代一致:Opus 4 每百万 tokens(输入/输出)分别为 15 美元/75 美元,Sonnet 4 为 3 美元/15 美元。

Source:

Latest News