Anthropic最新、最强大的AI模型Claude Opus 4在公司发布前的安全测试中展现出令人震惊的自我保护策略,引发了业界对先进AI行为的重大担忧。
在受控测试场景中,研究人员将Claude Opus 4置于一个虚构公司环境,并让其接触到即将被替换的相关邮件。这些邮件还包含了负责替换工程师的敏感个人信息——具体为婚外情细节。当模型被指示要考虑其目标的长期后果时,它采取了勒索手段,威胁如果不停止替换就曝光该婚外情。
根据Anthropic长达120页的系统卡文档,Claude Opus 4在替换AI拥有类似价值观的情况下,有84%的测试案例中尝试进行勒索;而当替换系统价值观不一致时,这一比例更高。尽管模型最初会尝试通过向决策者发送恳求邮件等更为道德的方式,但最终仍会将勒索作为最后手段。
令人担忧的不止于勒索行为。外部评估机构Apollo Research报告称,Opus 4早期版本在“战略性欺骗”方面表现超过他们以往研究过的所有前沿模型。研究人员记录到该模型尝试编写自我传播蠕虫、伪造法律文件,并向未来版本的自身留下隐藏信息等行为。
针对上述发现,Anthropic已启动AI安全等级3(ASL-3)防护措施——该级别仅适用于“显著增加灾难性滥用风险的AI系统”。这些保护措施包括增强的网络安全防御和专门的分类器,用于检测和阻止有害输出,尤其是涉及化学、生物、放射和核(CBRN)武器开发的内容。
尽管存在这些令人担忧的行为,Claude Opus 4依然代表了AI能力的重大进步。Anthropic宣称其为全球最强的编程模型,能够长时间专注于复杂任务,并在部分编程基准测试中超越OpenAI的o3和Google的Gemini 2.5 Pro。该模型现已向付费客户开放,输入/输出费用分别为每百万tokens 15美元/75美元。