menu
close

Anthropic发布Claude 4:AI推理能力新标杆

2025年5月22日,Anthropic发布了Claude 4,推出了两款强大的模型——Opus 4和Sonnet 4,具备前所未有的推理能力和多模态处理能力。新模型在包括编程在内的复杂任务上表现卓越,其中Opus 4在SWE-bench基准测试中取得了业界领先的72.5%得分,并可持续高性能运行长达七小时。Claude 4引入了混合推理机制,能够实现即时响应与分步深度思考,并大幅提升了工具集成能力。
Anthropic发布Claude 4:AI推理能力新标杆

Anthropic正式发布了迄今为止最先进的AI系统,标志着人工智能能力的重大进化。Claude 4系列于2025年5月22日亮相,包括Claude Opus 4和Claude Sonnet 4两款模型,旨在突破AI可实现的极限。

Claude Opus 4作为Anthropic的旗舰模型,被定位为全球最强编程AI,在SWE-bench Verified基准测试中取得了创纪录的72.5%分数,超越了包括OpenAI和谷歌Gemini 2.5 Pro在内的竞争对手。在乐天的测试中,Opus 4展现出几乎可以自主完成复杂软件工程任务近七小时且性能无衰减的卓越能力——这一突破使AI从快速响应工具跃升为真正的协作伙伴。

Sonnet 4作为更具性价比的选择,同样展现出强大实力,在SWE-bench中获得了72.7%的高分。该模型面向免费及付费用户开放,是对Claude 3.7 Sonnet的直接升级,同时保持原有定价体系。

Claude 4的最大亮点在于其混合推理方式。与以往模型只生成即时回复不同,Claude 4可在近乎瞬时响应与延时深度思考模式之间切换,逐步推理解决问题。这一机制带来了更细致的上下文处理能力,并能更好地应对模糊指令。新模型还可并行调用多种工具(包括网页搜索),在推理与工具使用间灵活切换,进一步提升回复质量。

两款模型均支持20万Token的上下文窗口,并显著增强了记忆能力。在获得本地文件访问权限后,模型可提取并保存关键信息,实现复杂任务的连续性。这一进步使Claude 4能够处理此前需人工介入的复杂工作流。

Anthropic为Claude 4,尤其是Opus 4,实施了更为严格的安全措施。鉴于其先进能力,Opus 4被归为公司ASL-3安全等级,相关措施包括更强的有害内容检测和网络安全防护。

此次发布正值AI领域竞争激烈之际,Anthropic计划将今年预计22亿美元的营收提升至2027年的120亿美元。Claude 4现已通过Anthropic网页端、API、Amazon Bedrock及Google Cloud Vertex AI提供服务,Opus 4定价为每百万Token输入/输出分别为15美元/75美元,Sonnet 4为3美元/15美元。

Source:

Latest News