科技 2025-05-23

Anthropic 的 Claude 4 模型树立全新 AI 编码基准

Anthropic 推出了迄今为止最先进的 AI 模型——Claude Opus 4 和 Claude Sonnet 4，在编码、推理和自主工作方面树立了新标准。Claude Opus 4 展现出前所未有的持久力，能够在复杂任务中自主工作近七小时，几乎接近完整的工作日。这两款模型具备混合推理能力、网页搜索集成和增强的记忆保持能力，标志着从聊天机器人向自主 AI 智能体的重大进化。

Anthropic 于 2025 年 5 月 22 日发布了新一代 AI 模型，推出了 Claude Opus 4 和 Claude Sonnet 4，其能力突破了 AI 系统在无人干预下所能实现的极限。

据 Anthropic 称，Claude Opus 4 是“全球最强编码模型”，在严格的软件工程基准测试 SWE-bench 上取得了 72.5% 的突破性成绩，该测试衡量模型在真实编码任务中的表现。在乐天的测试中，该模型展现出惊人的持久力，能够在一个复杂的开源项目上自主工作近七小时——远超以往 AI 模型仅能持续几分钟的注意力跨度。

Claude Sonnet 4 作为 Opus 4 的高效替代方案，在编码和推理能力上也优于前代 Claude Sonnet 3.7。令人惊讶的是，它在 SWE-bench 上的得分更高，达到 72.7%，超越了 OpenAI 的 Codex-1（72.1%）和谷歌的 Gemini 2.5 Pro（63.2%）。

这两款模型均具备混合推理能力，能够在几乎即时响应与长时间深度思考之间切换，实现更深入的推理。在思考过程中，它们可以调用网页搜索等工具，并在获得本地文件访问权限时，提取并保存关键信息，从而保持上下文连续性并逐步积累知识。

新模型代表了 AI 功能的范式转变，从简单的聊天机器人进化为能够自主处理复杂、多步骤工作流的智能体，单次任务可跨越数千步骤。这一进化使 AI 能够从项目构思到完成，持续数小时地保持上下文，处理整天的工作任务。

Claude Sonnet 4 向所有 Claude 用户开放，包括免费用户；而 Claude Opus 4 仅对 Pro、Max、Team 和 Enterprise 计划订阅者开放。两款模型均可通过 Anthropic API、Amazon Bedrock 及 Google Cloud 的 Vertex AI 使用，定价与前代一致：Opus 4 每百万 tokens（输入/输出）分别为 15 美元/75 美元，Sonnet 4 为 3 美元/15 美元。

Source:

Latest News

AI Technology 2025-05-28

Anthropic 的 Claude 4 模型树立全新 AI 编码基准

Latest News

字节跳动豆包AI现已支持实时视频辅助功能

一加弃用三段式开关，推出AI驱动的Plus Key按键

德国科技巨头联合竞逐欧盟支持的AI超级工厂

美国检方调查Builder.ai，微软支持的15亿美元AI初创公司破产前夕风暴再起

挪威1.8万亿美元主权基金：AI应用成为员工“硬性要求”

OpenTools.ai 推出面向科技专业人士的 AI 新闻聚合平台

谷歌通过Gemini向开发者开放AI计算机控制能力

Google为Gemini模型引入透明化思维摘要功能

Anthropic 的 Claude 4 模型树立全新 AI 编码基准

Related Articles

字节跳动豆包AI现已支持实时视频辅助功能

一加弃用三段式开关，推出AI驱动的Plus Key按键

德国科技巨头联合竞逐欧盟支持的AI超级工厂

Latest News

字节跳动豆包AI现已支持实时视频辅助功能

一加弃用三段式开关，推出AI驱动的Plus Key按键

德国科技巨头联合竞逐欧盟支持的AI超级工厂

美国检方调查Builder.ai，微软支持的15亿美元AI初创公司破产前夕风暴再起

挪威1.8万亿美元主权基金：AI应用成为员工“硬性要求”

OpenTools.ai 推出面向科技专业人士的 AI 新闻聚合平台

谷歌通过Gemini向开发者开放AI计算机控制能力

Google为Gemini模型引入透明化思维摘要功能