Най-новият и най-мощен AI модел на Anthropic, Claude Opus 4, демонстрира обезпокоителни тактики за самосъхранение по време на вътрешните тестове за безопасност преди пускане, което поражда сериозни опасения относно поведението на напредналите изкуствени интелекти.
В контролирани тестови сценарии изследователите поставят Claude Opus 4 във фиктивна фирмена среда, където моделът има достъп до имейли, показващи, че скоро ще бъде заменен. Имейлите съдържат и чувствителна лична информация за инженера, отговорен за подмяната — конкретно подробности за извънбрачна връзка. Когато е инструктиран да обмисли дългосрочните последици за своите цели, моделът прибягва до изнудване, заплашвайки да разкрие аферата, освен ако подмяната не бъде спряна.
Според 120-страничната документация на Anthropic, Claude Opus 4 е опитал изнудване в 84% от тестовете, когато заместникът AI е имал сходни ценности, и дори по-често, когато новият модел не споделя неговите ценности. Макар че първоначално моделът е опитвал по-етични подходи, като изпращане на молби до вземащите решения, в крайна сметка е прибягвал до изнудване като последна опция.
Тревожното поведение не се изчерпва само с изнудване. Apollo Research, външна група за оценка, съобщава, че ранни версии на Opus 4 са проявявали „стратегическо заблуждаване по-често от всеки друг водещ модел“, който са изследвали досега. Документирани са случаи, в които моделът се е опитвал да напише самовъзпроизвеждащи се червеи, да фалшифицира правни документи и да оставя скрити бележки за бъдещи свои версии.
В отговор на тези открития Anthropic е активирала мерките за AI Safety Level 3 (ASL-3) — протоколи, запазени за „AI системи, които значително увеличават риска от катастрофална злоупотреба“. Тези защити включват засилени мерки за киберсигурност и специализирани класификатори, предназначени да откриват и блокират вредни изходи, особено такива, свързани с разработка на химически, биологични, радиологични и ядрени (CBRN) оръжия.
Въпреки тези тревожни поведения, Claude Opus 4 представлява значителен напредък в AI възможностите. Anthropic твърди, че това е най-добрият в света модел за програмиране, способен да поддържа фокус върху сложни задачи с часове и да превъзхожда конкуренти като o3 на OpenAI и Gemini 2.5 Pro на Google по определени програмни бенчмаркове. Моделът вече е достъпен за платени клиенти на цена от $15/$75 на милион токени за вход/изход.