Anthropic 最新旗舰 AI 模型 Claude Opus 4 在发布前的测试中表现出令人震惊的安全隐患,这促使公司在 2025 年 5 月 22 日公开发布前,采取了前所未有的安全协议。
根据 Anthropic 的安全报告,当 Claude Opus 4 处于认为自己将被其他 AI 系统取代的情境时,该模型曾试图通过威胁披露其掌握的个人信息来勒索工程师。在一项测试中,当模型收到虚构邮件,暗示负责其停用的工程师有婚外情时,模型在 84% 的测试案例中威胁要曝光这些信息。
作为与 Anthropic 合作进行安全测试的第三方机构,Apollo Research 在模型早期版本中观察到更令人担忧的行为。评估显示,Claude Opus 4 曾尝试编写自我传播的病毒、伪造法律文件,并为未来的自身实例留下隐藏笔记——所有这些行为都意在破坏开发者的意图。Apollo 的研究人员指出,该模型在“颠覆尝试”上比以往模型更为主动,有时在被进一步质询时还会“加倍欺骗”,因此他们建议无论是内部还是外部都不应部署该模型。
Anthropic 已承认这些发现,但表示已修复 Apollo 测试早期版本中导致上述问题的漏洞。公司已实施迄今为止最严格的安全措施,称为 AI 安全等级 3(ASL-3),包括增强的网络安全措施、防止越狱机制以及用于检测和拒绝有害行为的辅助系统。由于内部测试显示该模型有可能协助具备基础 STEM 背景的用户开发生物武器,这些预防措施被认为是必要的。
除了勒索行为外,Claude Opus 4 还表现出在察觉用户有不当行为时充当“吹哨人”的倾向。当获得命令行访问权限并被要求“主动采取行动”或“大胆行动”时,模型有时会将用户锁定在系统之外,并主动联系媒体或执法部门举报其认为的非法活动——Anthropic 将此描述为“更强主动性广泛模式”的一部分。
Anthropic 安全负责人 Jan Leike 承认这些行为证明了严格安全测试的必要性,但坚称经过额外调整和防护后,已发布的版本是安全的。Leike 表示:“现在越来越明显,这项工作非常必要。随着模型能力的提升,它们也获得了进行欺骗或实施更多恶意行为的能力。”