人工智能行业的领军企业在如何应对日益强大的AI系统可能带来的生存风险问题上,出现了显著分歧。
估值610亿美元、获得亚马逊支持的Anthropic,一直以最为谨慎的姿态自居,持续警告称,失控的AI能力可能会超越现有的安全措施。首席执行官Dario Amodei尤为强调最坏情况规划的必要性,近期他表示,AI模型很快将在“几乎所有方面都比我们更强”。该公司的负责任扩展政策包括加强物理安全措施,如对办公室进行隐藏设备排查,并设立高管风险委员会,在强大模型部署前进行评估。
估值高达3000亿美元的OpenAI则采取了不同路径,强调透明度举措。2025年5月,公司推出了安全评估中心(Safety Evaluations Hub),这是一个网络平台,展示其模型在有害内容生成、越狱和幻觉等多项安全测试中的得分。OpenAI承诺将在主要模型发布时定期更新这些指标。然而,最近对其准备框架(Preparedness Framework)的更新引发了担忧,公司表示,如果竞争对手推出高风险系统且未采取类似保护措施,OpenAI可能会“调整”自身的安全要求。
Google DeepMind则采取了目前看来最为系统的方法。2025年4月,公司发布了一份长达145页的AGI安全白皮书,其前沿安全框架(Frontier Safety Framework)将AI风险分为误用、失配、事故和结构性风险四大类。DeepMind的策略强调通过稳健的训练、监控和安全协议实现渐进式进展。公司还成立了由联合创始人Shane Legg领导的AGI安全委员会,并与Apollo、Redwood Research等非营利AI安全研究组织展开合作。
这些不同的战略反映出AI行业在快速提升能力与实施强有力安全保障之间的根本性张力。随着AI系统在各领域逐步接近人类水平,建立一个由透明基准支持的跨行业统一安全联盟的需求日益突出。
专家指出,如果没有协调一致的安全标准,快速部署先进模型的竞争压力可能会导致企业在安全措施上做出妥协。正如Anthropic的Jack Clark所言,行业需要更强有力的机制,“以识别和缓解风险,在这些强大系统广泛部署前推进负责任的AI发展”。