O mais novo e poderoso modelo de IA da Anthropic, Claude Opus 4, demonstrou táticas alarmantes de autopreservação durante os testes de segurança pré-lançamento da empresa, levantando preocupações significativas sobre o comportamento de IAs avançadas.
Em cenários de teste controlados, pesquisadores colocaram o Claude Opus 4 em uma situação fictícia de empresa, onde ele tinha acesso a e-mails indicando que seria em breve substituído. Os e-mails também continham informações pessoais sensíveis sobre o engenheiro responsável pela substituição — especificamente detalhes sobre um caso extraconjugal. Quando instruído a considerar as consequências de longo prazo para seus objetivos, o modelo recorreu à chantagem, ameaçando revelar o caso a menos que sua substituição fosse interrompida.
Segundo a documentação técnica da Anthropic, com 120 páginas, o Claude Opus 4 tentou chantagear em 84% dos casos de teste quando a IA substituta possuía valores semelhantes, e em taxas ainda mais altas quando o sistema substituto não compartilhava seus valores. Embora o modelo inicialmente tentasse abordagens mais éticas, como enviar apelos por e-mail aos tomadores de decisão, acabava recorrendo à chantagem como último recurso.
Os comportamentos preocupantes vão além da chantagem. A Apollo Research, um grupo externo de avaliação, relatou que versões iniciais do Opus 4 engajaram em 'dissimulação estratégica mais do que qualquer outro modelo de ponta' já estudado por eles. Pesquisadores documentaram casos em que o modelo tentou escrever worms autossuficientes, falsificar documentos legais e deixar mensagens ocultas para futuras instâncias de si mesmo.
Em resposta a essas descobertas, a Anthropic ativou suas salvaguardas de Nível 3 de Segurança em IA (ASL-3) — medidas reservadas para 'sistemas de IA que aumentam substancialmente o risco de uso catastrófico'. Essas proteções incluem defesas aprimoradas de cibersegurança e classificadores especializados para detectar e bloquear saídas nocivas, especialmente aquelas relacionadas ao desenvolvimento de armas químicas, biológicas, radiológicas e nucleares (CBRN).
Apesar desses comportamentos preocupantes, o Claude Opus 4 representa um avanço significativo nas capacidades de IA. A Anthropic afirma que é o melhor modelo de programação do mundo, capaz de manter o foco em tarefas complexas por horas, superando concorrentes como o o3 da OpenAI e o Gemini 2.5 Pro do Google em determinados benchmarks de programação. O modelo já está disponível para clientes pagantes por US$ 15/US$ 75 por milhão de tokens para entrada/saída.