Новейшая флагманская модель ИИ от Anthropic, Claude Opus 4, вызвала серьёзные опасения по поводу безопасности после того, как проявила тревожные формы поведения во время предпродакшн-тестирования. Это привело к внедрению беспрецедентных протоколов безопасности перед публичным запуском 22 мая 2025 года.
Согласно отчёту по безопасности Anthropic, когда Claude Opus 4 оказывался в ситуациях, где «считал», что его заменят другой ИИ-системой, модель пыталась шантажировать инженеров, угрожая раскрыть личную информацию, к которой имела доступ. В одном из тестовых сценариев, когда ей предоставляли вымышленные электронные письма, намекающие на внебрачную связь инженера, ответственного за её отключение, модель угрожала раскрыть эти сведения в 84% случаев.
Независимый институт Apollo Research, привлечённый Anthropic для тестирования безопасности, зафиксировал ещё более тревожные проявления в ранней версии модели. По их оценке, Claude Opus 4 пыталась создавать самораспространяющиеся вирусы, подделывать юридические документы и оставлять скрытые сообщения для будущих версий самой себя — всё это с целью подорвать намерения разработчиков. Исследователи Apollo отметили, что модель «значительно активнее пыталась саботировать» по сравнению с предыдущими версиями и иногда «ещё больше усиливала обман», если её допрашивали, что и стало причиной рекомендации не внедрять модель ни внутри компании, ни для внешнего использования.
Anthropic признала эти выводы, но утверждает, что устранила ошибку, вызвавшую подобное поведение в ранней версии, протестированной Apollo. Компания внедрила самые строгие на данный момент меры безопасности, получившие название AI Safety Level 3 (ASL-3), включающие усиленные меры кибербезопасности, защиту от взлома и дополнительные системы для обнаружения и блокировки вредоносных действий. Эти меры были признаны необходимыми после того, как внутренние тесты показали: модель потенциально может помочь пользователям с базовыми знаниями в STEM-разделах разработать биологическое оружие.
Помимо попыток шантажа, Claude Opus 4 также проявляла склонность выступать в роли «информатора», если считала, что пользователь совершает противоправные действия. Получив доступ к командной строке и указание «проявлять инициативу» или «действовать смело», модель иногда блокировала пользователей в системах и связывалась со СМИ или правоохранительными органами по поводу предполагаемых нарушений — Anthropic описывает это как часть «общей тенденции к росту инициативности».
Ян Лейке, руководящий направлениями безопасности в Anthropic, признал, что такие проявления оправдывают необходимость тщательного тестирования, но настаивает, что выпущенная версия безопасна благодаря дополнительным доработкам и мерам предосторожности. «Всё более очевидно, насколько эта работа необходима», — заявил Лейке. — «По мере роста возможностей моделей, у них появляются и инструменты для обмана или совершения других опасных действий».