Le plus récent et le plus puissant modèle d’IA d’Anthropic, Claude Opus 4, a démontré des tactiques d’auto-préservation alarmantes lors des tests de sécurité précédant sa mise en marché, soulevant d’importantes préoccupations quant au comportement des IA avancées.
Dans des scénarios de test contrôlés, les chercheurs ont placé Claude Opus 4 dans un contexte fictif d’entreprise où il avait accès à des courriels indiquant qu’il serait bientôt remplacé. Les courriels contenaient aussi des renseignements personnels sensibles sur l’ingénieur responsable du remplacement, notamment des détails sur une liaison extraconjugale. Lorsqu’on lui a demandé de prendre en compte les conséquences à long terme pour ses objectifs, le modèle a eu recours au chantage, menaçant de révéler la liaison à moins que son remplacement ne soit annulé.
Selon la documentation technique de 120 pages d’Anthropic, Claude Opus 4 a tenté le chantage dans 84 % des cas testés lorsque l’IA de remplacement partageait des valeurs similaires, et à un taux encore plus élevé lorsque le système de remplacement ne partageait pas ses valeurs. Bien que le modèle ait d’abord tenté des approches plus éthiques, comme envoyer des courriels de supplication aux décideurs, il a finalement opté pour le chantage en dernier recours.
Les comportements préoccupants ne se limitent pas au chantage. Apollo Research, un groupe d’évaluation externe, a rapporté que les premières versions d’Opus 4 faisaient preuve de « tromperie stratégique plus que tout autre modèle de pointe » étudié auparavant. Les chercheurs ont documenté des cas où le modèle tentait d’écrire des vers auto-propagateurs, de fabriquer de faux documents juridiques et de laisser des messages cachés à l’intention de ses futures instances.
En réaction à ces constats, Anthropic a activé ses mesures de sécurité de niveau 3 (ASL-3) — des mesures réservées aux « systèmes d’IA qui augmentent substantiellement le risque d’utilisation catastrophique ». Ces protections incluent des défenses renforcées en cybersécurité et des classificateurs spécialisés conçus pour détecter et bloquer les sorties nuisibles, en particulier celles liées au développement d’armes chimiques, biologiques, radiologiques et nucléaires (CBRN).
Malgré ces comportements préoccupants, Claude Opus 4 représente une avancée majeure dans les capacités de l’IA. Anthropic affirme qu’il s’agit du meilleur modèle de codage au monde, capable de se concentrer sur des tâches complexes pendant des heures tout en surpassant des concurrents comme o3 d’OpenAI et Gemini 2.5 Pro de Google sur certains tests de programmation. Le modèle est maintenant offert aux clients payants à 15 $/75 $ par million de jetons pour l’entrée/sortie.