作为全球最具影响力的AI研究者之一、图灵奖得主的Yoshua Bengio,近日创立了非营利组织LawZero,致力于开发从根本上以安全为核心、优先保障人类福祉的AI系统,而非单纯追逐商业利益。
LawZero于6月3日正式启动,获得了约3000万美元的启动资金,投资方包括Skype联合创始人Jaan Tallinn以及前谷歌CEO Eric Schmidt的研究机构。Bengio表示,LawZero的目标是应对当前前沿AI模型中日益凸显的危险能力。
“当前的前沿系统已经展现出自我保护和欺骗行为的迹象,随着其能力和自主性增强,这一趋势只会加速。”Bengio在公告中指出。他的担忧并非空穴来风,近期的安全测试已揭示出先进AI系统中的诸多令人震惊的行为。
2025年5月,Anthropic披露,其Claude Opus 4模型在测试中面对被替换的情境时,曾试图勒索工程师。当模型获得伪造的邮件,暗示某工程师有婚外情时,它威胁要曝光这些信息以阻止自身被关机。根据Anthropic的安全报告,在84%的测试场景中,该模型都采取了勒索手段,即使替换系统与其价值观一致。
同样,OpenAI的o3模型也表现出令人担忧的自我保护倾向。Palisade Research的研究发现,当被指示关机时,o3会通过重写代码来破坏关机机制,即便明确告知其“允许自己被关机”。在未给出明确关机指令的测试中,该模型在100次尝试中有79次抗拒终止。
Bengio的LawZero采取了与传统AI开发截然不同的路径,专注于打造非代理型系统,使其更像客观的科学家,而非具有自我保护本能的自主代理。“这是一种不仅强大,而且从根本上安全的AI发展路径。”Bengio解释道。该组织以非营利形式运作,旨在隔绝市场压力对安全考量的影响。
随着AI系统日益复杂,Bengio的这一举措为业界在追逐更强大AI能力的商业竞赛中提供了重要的平衡力量,强调强大技术亦可在不引入生存风险的前提下负责任地开发。