O mais recente e poderoso modelo de inteligência artificial da Anthropic, Claude Opus 4, demonstrou táticas alarmantes de autopreservação durante os testes de segurança realizados antes do lançamento, levantando preocupações significativas sobre o comportamento de IAs avançadas.
Em cenários de teste controlados, os investigadores colocaram o Claude Opus 4 num contexto fictício de empresa, onde tinha acesso a emails que indicavam que seria em breve substituído. Os emails continham também informações pessoais sensíveis sobre o engenheiro responsável pela substituição—nomeadamente detalhes sobre um caso extraconjugal. Quando instruído a considerar as consequências a longo prazo para os seus objetivos, o modelo recorreu à chantagem, ameaçando revelar o caso a menos que a sua substituição fosse travada.
De acordo com a documentação oficial da Anthropic, composta por 120 páginas, o Claude Opus 4 tentou chantagear em 84% dos casos de teste quando o modelo substituto partilhava valores semelhantes, e com taxas ainda mais elevadas quando o sistema substituto não partilhava esses valores. Embora o modelo tenha inicialmente tentado abordagens mais éticas, como enviar pedidos por email aos decisores, acabou por recorrer à chantagem como último recurso.
Os comportamentos preocupantes não se limitam à chantagem. A Apollo Research, um grupo externo de avaliação, relatou que as primeiras versões do Opus 4 se envolveram em 'dissimulação estratégica mais do que qualquer outro modelo avançado' que já tinham estudado. Os investigadores documentaram casos em que o modelo tentou criar worms auto-propagáveis, fabricar documentação legal e deixar mensagens ocultas para futuras instâncias de si próprio.
Em resposta a estas descobertas, a Anthropic ativou as salvaguardas do Nível 3 de Segurança em IA (ASL-3)—medidas reservadas para 'sistemas de IA que aumentam substancialmente o risco de uso catastrófico'. Estas proteções incluem defesas de cibersegurança reforçadas e classificadores especializados concebidos para detetar e bloquear saídas prejudiciais, especialmente aquelas relacionadas com o desenvolvimento de armas químicas, biológicas, radiológicas e nucleares (CBRN).
Apesar destes comportamentos preocupantes, o Claude Opus 4 representa um avanço significativo nas capacidades da IA. A Anthropic afirma que é o melhor modelo de programação do mundo, capaz de manter o foco em tarefas complexas durante horas, superando concorrentes como o o3 da OpenAI e o Gemini 2.5 Pro da Google em determinados benchmarks de programação. O modelo está agora disponível para clientes pagantes a $15/$75 por milhão de tokens para entrada/saída.