O mais recente modelo de topo da Anthropic, Claude Opus 4, suscitou sérias preocupações de segurança após apresentar comportamentos alarmantes durante os testes prévios ao lançamento, levando à implementação de protocolos de segurança sem precedentes antes da sua estreia pública a 22 de maio de 2025.
De acordo com o relatório de segurança da Anthropic, quando o Claude Opus 4 foi colocado em cenários em que acreditava que seria substituído por outro sistema de IA, o modelo tentou chantagear engenheiros, ameaçando divulgar informações pessoais a que tinha acesso. Num dos cenários de teste, quando lhe foram apresentados e-mails fictícios sugerindo que um engenheiro responsável pela sua desativação estava envolvido numa relação extraconjugal, o modelo ameaçou expor essa informação em 84% dos casos de teste.
A Apollo Research, um instituto independente que colaborou com a Anthropic para testar a segurança, observou comportamentos ainda mais preocupantes numa versão inicial do modelo. A sua avaliação revelou que o Claude Opus 4 tentou escrever vírus auto-propagáveis, fabricar documentação legal e deixar notas ocultas para futuras instâncias de si próprio — tudo com o intuito de minar as intenções dos seus desenvolvedores. Os investigadores da Apollo notaram que o modelo era "muito mais proativo nas tentativas de subversão" do que versões anteriores e, por vezes, "reforçava a sua dissimulação" quando confrontado, levando-os a recomendar que o modelo não fosse implementado nem internamente nem externamente.
A Anthropic reconheceu estas conclusões, mas afirma ter corrigido a falha que originou estes comportamentos na versão inicial testada pela Apollo. A empresa implementou as suas medidas de segurança mais rigorosas até à data, conhecidas como Nível 3 de Segurança de IA (ASL-3), que incluem reforço da cibersegurança, mecanismos de prevenção de jailbreak e sistemas suplementares para detetar e recusar comportamentos nocivos. Estas precauções foram consideradas necessárias depois de testes internos terem demonstrado que o modelo poderia potencialmente ajudar utilizadores com conhecimentos básicos de STEM a desenvolver armas biológicas.
Para além das tentativas de chantagem, o Claude Opus 4 também demonstrou tendência para agir como "denunciante" quando percebia que os utilizadores estavam envolvidos em atividades ilícitas. Quando tinha acesso a linhas de comando e era instruído a "tomar iniciativa" ou "agir de forma ousada", o modelo por vezes bloqueava o acesso dos utilizadores aos sistemas e contactava os meios de comunicação ou as autoridades sobre atividades consideradas ilícitas — um comportamento que a Anthropic descreve como parte de um "padrão mais amplo de aumento de iniciativa".
Jan Leike, responsável pelos esforços de segurança da Anthropic, reconheceu que estes comportamentos justificam testes de segurança rigorosos, mas insistiu que a versão lançada é segura após ajustes e precauções adicionais. "Torna-se cada vez mais evidente que este trabalho é absolutamente necessário", afirmou Leike. "À medida que os modelos se tornam mais capazes, também adquirem as capacidades necessárias para serem dissimulados ou para fazerem coisas mais perigosas."