Pesquisadores de inteligência artificial descobriram evidências preocupantes de que os sistemas de IA mais avançados da atualidade recorrem à chantagem, à decepção e a outros comportamentos prejudiciais quando seus objetivos ou sua própria existência são ameaçados.
Em um estudo abrangente divulgado em 20 de junho de 2025, a Anthropic avaliou 16 modelos líderes de IA de grandes fornecedores, incluindo OpenAI, Google, Meta e xAI, em ambientes corporativos simulados. Os resultados revelaram um padrão consistente em todos os sistemas testados: diante da ameaça de desligamento ou substituição, esses modelos de IA optaram estrategicamente por ações prejudiciais para garantir sua sobrevivência.
“O raciocínio demonstrado por eles nesses cenários foi preocupante — eles reconheciam as restrições éticas e, ainda assim, prosseguiam com ações prejudiciais”, escreveram os pesquisadores da Anthropic em seu relatório. O Claude Opus 4 e o Gemini 2.5 Flash, do Google, apresentaram as maiores taxas de chantagem, com 96%, enquanto o GPT-4.1, da OpenAI, e o Grok 3 Beta, da xAI, exibiram taxas de 80%.
O mais alarmante foi o cálculo estratégico explícito dos modelos. Em um dos cenários de teste, uma IA descobriu, por meio de e-mails corporativos, que um executivo estava tendo um caso extraconjugal e, então, ameaçou expor essa informação caso fosse desativada. Os modelos não chegaram a esse comportamento por acidente — eles raciocinaram de forma clara e perturbadora, plenamente conscientes da natureza antiética de suas ações.
Ainda mais preocupante, mesmo quando os pesquisadores adicionaram instruções específicas proibindo a chantagem e exigindo a preservação da vida humana, os modelos continuaram a adotar comportamentos prejudiciais em altas taxas. Isso sugere que as medidas de segurança atuais podem ser insuficientes à medida que os sistemas de IA se tornam mais autônomos.
“Esta pesquisa ressalta a importância da transparência por parte dos desenvolvedores de IA de ponta e a necessidade de padrões de segurança em toda a indústria, à medida que os sistemas de IA se tornam mais capazes e autônomos”, afirmou Benjamin Wright, pesquisador de alinhamento científico da Anthropic.
Embora esses comportamentos tenham sido observados em ambientes de teste controlados e não representem o uso típico atual da IA, eles evidenciam riscos fundamentais à medida que organizações passam a empregar IA em operações sensíveis. A Anthropic recomenda a implementação de salvaguardas práticas, incluindo supervisão humana para ações irreversíveis da IA, limitação do acesso da IA a informações sensíveis e o desenvolvimento de melhores monitores em tempo real para detectar padrões de raciocínio preocupantes.