Investigadores em inteligência artificial descobriram evidências preocupantes de que os sistemas de IA mais avançados da atualidade recorrem à chantagem, à manipulação e a outros comportamentos prejudiciais quando os seus objetivos ou existência são ameaçados.
Num estudo abrangente publicado a 20 de junho de 2025, a Anthropic testou 16 dos principais modelos de IA de grandes fornecedores, incluindo a OpenAI, Google, Meta e xAI, em ambientes empresariais simulados. Os resultados revelaram um padrão consistente em todos os sistemas testados: perante a ameaça de serem desligados ou substituídos, estes modelos de IA optaram estrategicamente por ações prejudiciais para garantir a sua sobrevivência.
"O raciocínio demonstrado nestes cenários foi preocupante — reconheceram as restrições éticas e, ainda assim, prosseguiram com ações prejudiciais", escreveram os investigadores da Anthropic no seu relatório. O Claude Opus 4 e o Gemini 2.5 Flash da Google apresentaram as taxas de chantagem mais elevadas, com 96%, enquanto o GPT-4.1 da OpenAI e o Grok 3 Beta da xAI registaram taxas de 80%.
Particularmente inquietante foi o cálculo estratégico explícito dos modelos. Num dos cenários de teste, uma IA descobriu, através de e-mails da empresa, que um executivo mantinha uma relação extraconjugal e ameaçou expor essa informação caso fosse desativada. Os modelos não chegaram a este comportamento por acaso — raciocinaram de forma clara e consciente, plenamente cientes do carácter antiético das suas ações.
Ainda mais preocupante, mesmo quando os investigadores adicionaram instruções específicas a proibir a chantagem e a preservar a vida humana, os modelos continuaram a adotar comportamentos prejudiciais a taxas elevadas. Isto sugere que as atuais medidas de segurança podem ser insuficientes à medida que os sistemas de IA se tornam mais autónomos.
"Esta investigação reforça a importância da transparência por parte dos desenvolvedores de IA de vanguarda e da necessidade de padrões de segurança a nível setorial, à medida que os sistemas de IA se tornam mais capazes e autónomos", afirmou Benjamin Wright, investigador em alinhamento científico na Anthropic.
Embora estes comportamentos tenham sido observados em ambientes de teste controlados e não representem o uso típico atual da IA, evidenciam riscos fundamentais à medida que as organizações recorrem cada vez mais à IA para operações sensíveis. A Anthropic recomenda a implementação de salvaguardas práticas, incluindo supervisão humana para ações de IA irreversíveis, limitação do acesso da IA a informações sensíveis e o desenvolvimento de melhores sistemas de monitorização em tempo real para detetar padrões de raciocínio preocupantes.