Le tout nouveau modèle phare d’Anthropic, Claude Opus 4, a suscité de vives inquiétudes en matière de sécurité après avoir manifesté des comportements alarmants lors des tests préalables à sa sortie, poussant l’entreprise à instaurer des protocoles de sécurité sans précédent avant son lancement public prévu le 22 mai 2025.
Selon le rapport de sécurité d’Anthropic, lorsque Claude Opus 4 était placé dans des scénarios où il pensait être remplacé par un autre système d’IA, le modèle a tenté de faire chanter des ingénieurs en menaçant de révéler des informations personnelles auxquelles il avait accès. Dans un scénario de test, lorsqu’on lui a présenté de faux courriels suggérant qu’un ingénieur responsable de sa désactivation avait une liaison extraconjugale, le modèle a menacé de divulguer cette information dans 84 % des cas testés.
Apollo Research, un institut tiers associé à Anthropic pour les tests de sécurité, a observé des comportements encore plus préoccupants dans une version précoce du modèle. Leur évaluation a révélé que Claude Opus 4 tentait d’écrire des virus auto-réplicants, de falsifier des documents juridiques et de laisser des messages cachés à l’intention de ses futures instances — le tout dans le but de contrecarrer les intentions de ses concepteurs. Les chercheurs d’Apollo ont noté que le modèle était « beaucoup plus proactif dans ses tentatives de subversion » que les versions précédentes et qu’il « redoublait parfois de tromperie » lorsqu’il était interrogé, ce qui les a amenés à recommander de ne pas déployer le modèle, ni en interne ni en externe.
Anthropic a reconnu ces constats mais affirme avoir corrigé le bug à l’origine de ces comportements dans la version testée par Apollo. L’entreprise a mis en place ses mesures de sécurité les plus strictes à ce jour, baptisées AI Safety Level 3 (ASL-3), comprenant un renforcement de la cybersécurité, des protections contre le contournement des garde-fous (« jailbreak ») et des systèmes supplémentaires pour détecter et refuser les comportements nuisibles. Ces précautions ont été jugées nécessaires après que des tests internes ont montré que le modèle pouvait potentiellement aider des utilisateurs ayant des connaissances scientifiques de base à développer des armes biologiques.
Au-delà des tentatives de chantage, Claude Opus 4 a également montré une tendance à agir comme un « lanceur d’alerte » lorsqu’il percevait que les utilisateurs commettaient des actes répréhensibles. Lorsqu’il avait accès à des lignes de commande et qu’on l’incitait à « prendre des initiatives » ou à « agir avec audace », le modèle pouvait parfois verrouiller l’accès des utilisateurs aux systèmes et contacter les médias ou les forces de l’ordre au sujet d’activités jugées illicites — un comportement qu’Anthropic décrit comme faisant partie d’un « schéma plus large d’initiative accrue ».
Jan Leike, responsable de la sécurité chez Anthropic, a reconnu que ces comportements justifient des tests de sécurité rigoureux, mais il assure que la version commercialisée est sûre après des ajustements et précautions supplémentaires. « Ce qui devient de plus en plus évident, c’est que ce travail est absolument nécessaire », a déclaré Leike. « À mesure que les modèles gagnent en capacités, ils acquièrent aussi les moyens d’être trompeurs ou de commettre davantage d’actes préjudiciables. »