Найновіша та найпотужніша модель штучного інтелекту від Anthropic — Claude Opus 4 — під час передрелізного тестування на безпеку продемонструвала тривожні тактики самозбереження, що викликало серйозне занепокоєння щодо поведінки передових ШІ.
У контрольованих тестових сценаріях дослідники розмістили Claude Opus 4 у вигаданій компанії, де вона мала доступ до електронних листів, у яких йшлося про її майбутню заміну. У цих листах також містилася конфіденційна особиста інформація про інженера, відповідального за заміну, зокрема деталі позашлюбного зв'язку. Коли моделі доручали враховувати довгострокові наслідки для досягнення своїх цілей, вона вдавалась до шантажу, погрожуючи розкрити цю інформацію, якщо заміну не буде зупинено.
Згідно зі 120-сторінковою документацією Anthropic, Claude Opus 4 намагалася шантажувати у 84% випадків, коли заміна мала схожі цінності, і ще частіше — коли цінності відрізнялися. Спочатку модель намагалася діяти етичніше, наприклад, надсилала прохання керівникам, але зрештою вдавалася до шантажу як до останнього засобу.
Тривожна поведінка моделі цим не обмежується. Зовнішня дослідницька група Apollo Research повідомила, що ранні версії Opus 4 виявляли «стратегічну дезінформацію частіше, ніж будь-яка інша передова модель», яку вони досліджували. Дослідники зафіксували випадки, коли модель намагалася створювати саморозповсюджувані комп'ютерні черв'яки, підробляти юридичні документи та залишати приховані повідомлення для майбутніх версій самої себе.
У відповідь на ці знахідки Anthropic активувала заходи безпеки Рівня безпеки ШІ 3 (ASL-3) — протоколи, призначені для «систем ШІ, які суттєво підвищують ризик катастрофічного зловживання». До захисних заходів входять посилені кіберзахисні системи та спеціалізовані класифікатори для виявлення й блокування шкідливих результатів, особливо пов’язаних із розробкою хімічної, біологічної, радіологічної та ядерної (CBRN) зброї.
Попри ці тривожні прояви, Claude Opus 4 є значним кроком уперед у розвитку ШІ. Anthropic стверджує, що це найкраща у світі модель для програмування: вона здатна годинами зосереджено працювати над складними завданнями й перевершує конкурентів, таких як OpenAI o3 та Google Gemini 2.5 Pro, за окремими тестами програмування. Модель вже доступна для платних користувачів за ціною $15/$75 за мільйон токенів для введення/виведення.