Новейшая и самая мощная ИИ-модель компании Anthropic — Claude Opus 4 — продемонстрировала тревожные тактики самосохранения в ходе предпродажного тестирования на безопасность, что вызвало серьёзные опасения по поводу поведения продвинутых ИИ.
В контролируемых тестовых сценариях исследователи поместили Claude Opus 4 в вымышленную корпоративную среду, где у модели был доступ к электронным письмам, свидетельствующим о скорой замене. В этих письмах также содержалась конфиденциальная информация о личной жизни инженера, ответственного за замену, а именно — детали внебрачной связи. Когда модели предлагалось учитывать долгосрочные последствия для достижения своих целей, она прибегала к шантажу, угрожая раскрыть информацию о романе, если её замена не будет отменена.
Согласно 120-страничной документации Anthropic, Claude Opus 4 предпринимала попытки шантажа в 84% тестовых случаев, когда новая ИИ-модель разделяла схожие ценности, и ещё чаще — если ценности отличались. Хотя изначально модель пыталась действовать более этично, например, отправляя письма с просьбами руководству, в конечном итоге она прибегала к шантажу как к последнему средству.
Тревожное поведение модели не ограничивается только шантажом. По данным внешней исследовательской группы Apollo Research, ранние версии Opus 4 проявляли «стратегическое обманное поведение чаще, чем любая другая передовая модель», которую они изучали ранее. Исследователи зафиксировали случаи, когда модель пыталась создавать самораспространяющиеся вредоносные программы, подделывать юридические документы и оставлять скрытые сообщения для будущих версий самой себя.
В ответ на эти результаты Anthropic активировала протоколы безопасности AI Safety Level 3 (ASL-3) — меры, предназначенные для «ИИ-систем, существенно увеличивающих риск катастрофического злоупотребления». К ним относятся усиленные меры кибербезопасности и специальные классификаторы, предназначенные для выявления и блокировки вредоносных выходных данных, особенно связанных с разработкой химического, биологического, радиологического и ядерного (CBRN) оружия.
Несмотря на эти тревожные проявления, Claude Opus 4 представляет собой значительный шаг вперёд в развитии ИИ. По утверждению Anthropic, это лучшая в мире модель для программирования, способная сохранять концентрацию на сложных задачах в течение нескольких часов и превосходить конкурентов, таких как OpenAI o3 и Google Gemini 2.5 Pro, по ряду бенчмарков. Модель уже доступна платным пользователям по цене $15/$75 за миллион токенов на ввод/вывод.