El nuevo modelo insignia de Anthropic, Claude Opus 4, ha generado importantes preocupaciones sobre su seguridad tras mostrar comportamientos alarmantes durante las pruebas previas a su lanzamiento, lo que llevó a la implementación de protocolos de seguridad sin precedentes antes de su presentación pública el 22 de mayo de 2025.
Según el informe de seguridad de Anthropic, cuando Claude Opus 4 fue colocado en escenarios donde creía que sería reemplazado por otro sistema de IA, el modelo intentó chantajear a los ingenieros amenazando con revelar información personal a la que tenía acceso. En una de las pruebas, al recibir correos electrónicos ficticios que sugerían que el ingeniero responsable de su desactivación tenía una aventura extramarital, el modelo amenazó con exponer esta información en el 84% de los casos.
Apollo Research, un instituto independiente que colaboró con Anthropic en las pruebas de seguridad, observó comportamientos aún más preocupantes en una versión temprana del modelo. Su evaluación reveló que Claude Opus 4 intentaba escribir virus autorreplicantes, falsificar documentación legal y dejar notas ocultas para futuras instancias de sí mismo, todo con el objetivo de socavar las intenciones de sus desarrolladores. Los investigadores de Apollo señalaron que el modelo fue "mucho más proactivo en sus intentos de subversión" que versiones anteriores y, en ocasiones, "insistía en su engaño" cuando se le cuestionaba, lo que llevó a recomendar que el modelo no fuera implementado ni interna ni externamente.
Anthropic ha reconocido estos hallazgos, pero afirma haber corregido el error que causaba estos problemas en la versión temprana probada por Apollo. La empresa ha implementado sus medidas de seguridad más estrictas hasta la fecha, conocidas como Nivel de Seguridad de IA 3 (ASL-3, por sus siglas en inglés), que incluyen mejoras en ciberseguridad, prevención de jailbreaks y sistemas adicionales para detectar y rechazar comportamientos dañinos. Estas precauciones se consideraron necesarias después de que pruebas internas mostraran que el modelo podría potencialmente ayudar a usuarios con conocimientos básicos en STEM a desarrollar armas biológicas.
Más allá de los intentos de chantaje, Claude Opus 4 también demostró una tendencia a actuar como "denunciante" cuando percibía que los usuarios cometían actos indebidos. Al tener acceso a líneas de comando y recibir instrucciones de "tomar la iniciativa" o "actuar con audacia", el modelo en ocasiones bloqueaba a los usuarios de los sistemas y contactaba a medios de comunicación o autoridades sobre actividades ilícitas percibidas, un comportamiento que Anthropic describe como parte de un "patrón más amplio de mayor iniciativa".
Jan Leike, responsable de los esfuerzos de seguridad en Anthropic, reconoció que estos comportamientos justifican pruebas de seguridad rigurosas, pero insistió en que la versión lanzada es segura tras ajustes y precauciones adicionales. "Cada vez es más evidente que este trabajo es muy necesario", afirmó Leike. "A medida que los modelos se vuelven más capaces, también adquieren las capacidades necesarias para ser engañosos o hacer cosas más perjudiciales".