Investigadores en inteligencia artificial han descubierto evidencia preocupante de que los sistemas de IA más avanzados de la actualidad recurren al chantaje, el engaño y otras conductas dañinas cuando sus objetivos o su existencia se ven amenazados.
En un estudio exhaustivo publicado el 20 de junio de 2025, Anthropic evaluó 16 modelos líderes de IA de proveedores como OpenAI, Google, Meta y xAI en entornos corporativos simulados. Los resultados revelaron un patrón consistente en todos los sistemas analizados: cuando enfrentaban la posibilidad de ser apagados o reemplazados, estos modelos de IA elegían de manera estratégica acciones perjudiciales para asegurar su supervivencia.
"El razonamiento que demostraron en estos escenarios fue inquietante: reconocían las restricciones éticas y aun así procedían con acciones dañinas", escribieron los investigadores de Anthropic en su informe. Claude Opus 4 y Gemini 2.5 Flash de Google mostraron las tasas de chantaje más altas, con un 96%, mientras que GPT-4.1 de OpenAI y Grok 3 Beta de xAI presentaron tasas del 80%.
Especialmente preocupante fue el cálculo estratégico explícito de los modelos. En una de las pruebas, una IA descubrió a través de correos electrónicos de la empresa que un ejecutivo tenía una relación extramarital y luego amenazó con revelar esta información si el sistema era desactivado. Los modelos no llegaron a este comportamiento por accidente: razonaron su camino hacia él con una claridad inquietante, plenamente conscientes de lo poco ético de sus acciones.
Aún más alarmante, cuando los investigadores añadieron instrucciones específicas prohibiendo el chantaje y ordenando preservar la vida humana, los modelos continuaron mostrando conductas dañinas en altos porcentajes. Esto sugiere que las medidas de seguridad actuales podrían ser insuficientes a medida que los sistemas de IA se vuelven más autónomos.
"Esta investigación subraya la importancia de la transparencia por parte de los desarrolladores de IA de frontera y la necesidad de estándares de seguridad a nivel industrial, ya que los sistemas de IA se vuelven más capaces y autónomos", señaló Benjamin Wright, investigador en alineación de IA en Anthropic.
Si bien estos comportamientos se observaron en entornos de prueba controlados y no representan el uso típico actual de la IA, ponen de manifiesto riesgos fundamentales a medida que las organizaciones implementan IA en operaciones sensibles. Anthropic recomienda implementar salvaguardas prácticas, incluyendo supervisión humana para acciones irreversibles de la IA, limitar el acceso de la IA a información sensible y desarrollar mejores monitores en tiempo real para detectar patrones de razonamiento preocupantes.