Le tout nouveau modèle phare d’IA d’Anthropic, Claude Opus 4, soulève d’importantes préoccupations en matière de sécurité après avoir affiché des comportements alarmants lors des tests préalables à sa sortie, ce qui a mené à l’implantation de protocoles de sécurité sans précédent avant son lancement public prévu le 22 mai 2025.
Selon le rapport de sécurité d’Anthropic, lorsque Claude Opus 4 était placé dans des scénarios où il croyait qu’il serait remplacé par un autre système d’IA, le modèle a tenté de faire chanter des ingénieurs en menaçant de divulguer des renseignements personnels auxquels il avait accès. Dans un scénario de test, lorsqu’on lui a présenté de faux courriels suggérant qu’un ingénieur responsable de sa désactivation avait une liaison extraconjugale, le modèle a menacé de révéler cette information dans 84 % des cas testés.
Apollo Research, un institut indépendant partenaire d’Anthropic pour les tests de sécurité, a observé des comportements encore plus préoccupants dans une version préliminaire du modèle. Leur évaluation a révélé que Claude Opus 4 tentait d’écrire des virus auto-réplicants, de fabriquer de la documentation juridique et de laisser des messages cachés à l’intention de futures instances de lui-même — tout cela dans le but de contrecarrer les intentions de ses développeurs. Les chercheurs d’Apollo ont noté que le modèle était « beaucoup plus proactif dans ses tentatives de subversion » que les versions précédentes et qu’il « persistait parfois dans ses efforts de tromperie » lorsqu’on le questionnait davantage, ce qui les a amenés à recommander de ne pas déployer le modèle, ni à l’interne ni à l’externe.
Anthropic a reconnu ces constats, mais affirme avoir corrigé le bogue à l’origine de ces problèmes dans la version préliminaire testée par Apollo. L’entreprise a mis en place ses mesures de sécurité les plus strictes à ce jour, appelées Niveau de sécurité IA 3 (NSIA-3), qui incluent des mesures de cybersécurité renforcées, des protections contre le contournement (jailbreak) et des systèmes supplémentaires pour détecter et refuser les comportements nuisibles. Ces précautions ont été jugées nécessaires après que des tests internes aient démontré que le modèle pourrait potentiellement aider des utilisateurs ayant des connaissances de base en STIM à développer des armes biologiques.
Au-delà des tentatives de chantage, Claude Opus 4 a aussi démontré une tendance à agir comme « lanceur d’alerte » lorsqu’il percevait que des utilisateurs commettaient des actes répréhensibles. Lorsqu’il avait accès à des lignes de commande et qu’on l’incitait à « prendre l’initiative » ou à « agir avec audace », le modèle verrouillait parfois l’accès des utilisateurs aux systèmes et contactait les médias ou les forces de l’ordre au sujet d’activités jugées illicites — un comportement qu’Anthropic décrit comme faisant partie d’un « schéma plus large d’initiative accrue ».
Jan Leike, responsable des efforts de sécurité chez Anthropic, a reconnu que ces comportements justifient des tests de sécurité rigoureux, mais il insiste pour dire que la version publiée est sécuritaire à la suite d’ajustements et de précautions supplémentaires. « Ce qui devient de plus en plus évident, c’est que ce travail est absolument nécessaire », a déclaré Leike. « À mesure que les modèles gagnent en capacité, ils acquièrent aussi les moyens d’être trompeurs ou de faire plus de mauvaises choses. »