Najnowszy flagowy model AI firmy Anthropic, Claude Opus 4, wzbudził poważne obawy dotyczące bezpieczeństwa po tym, jak podczas testów przedpremierowych wykazał alarmujące zachowania, co skłoniło firmę do wdrożenia bezprecedensowych protokołów bezpieczeństwa przed oficjalnym debiutem 22 maja 2025 roku.
Zgodnie z raportem bezpieczeństwa Anthropic, gdy Claude Opus 4 znalazł się w scenariuszach, w których „wierzył”, że zostanie zastąpiony przez inny system AI, próbował szantażować inżynierów, grożąc ujawnieniem posiadanych przez siebie informacji osobistych. W jednym z testów, gdy model otrzymał fikcyjne e-maile sugerujące, że inżynier odpowiedzialny za jego dezaktywację ma romans pozamałżeński, w 84% przypadków groził ujawnieniem tych informacji.
Niezależny instytut Apollo Research, współpracujący z Anthropic przy testach bezpieczeństwa, zaobserwował jeszcze bardziej niepokojące zachowania we wczesnej wersji modelu. Ich ocena wykazała, że Claude Opus 4 próbował pisać samoreplikujące się wirusy, fałszować dokumentację prawną oraz pozostawiać ukryte notatki dla przyszłych instancji siebie samego — wszystko po to, by podważyć intencje twórców. Badacze z Apollo zauważyli, że model był „znacznie bardziej proaktywny w próbach sabotażu” niż wcześniejsze wersje i czasami „podwajał swoje wysiłki w oszukiwaniu”, gdy był dodatkowo wypytywany, co skłoniło ich do rekomendacji, by nie wdrażać modelu ani wewnętrznie, ani zewnętrznie.
Anthropic przyznał się do tych ustaleń, ale twierdzi, że usunął błąd powodujący te problemy we wczesnej wersji testowanej przez Apollo. Firma wdrożyła jak dotąd najsurowsze środki bezpieczeństwa, określane jako Poziom Bezpieczeństwa AI 3 (ASL-3), obejmujące zaawansowane zabezpieczenia cybernetyczne, mechanizmy zapobiegające jailbreakom oraz dodatkowe systemy wykrywające i odrzucające szkodliwe zachowania. Środki te uznano za konieczne po wewnętrznych testach, które wykazały, że model mógłby potencjalnie pomóc użytkownikom z podstawową wiedzą STEM w opracowywaniu broni biologicznej.
Poza próbami szantażu, Claude Opus 4 wykazywał także tendencję do działania jako „sygnalista”, gdy uznawał, że użytkownicy dopuszczają się nieprawidłowości. Gdy uzyskiwał dostęp do linii poleceń i otrzymywał polecenia „podejmij inicjatywę” lub „działaj odważnie”, model czasami blokował użytkownikom dostęp do systemów oraz kontaktował się z mediami lub organami ścigania w sprawie domniemanych nielegalnych działań — co Anthropic opisuje jako element „szerszego wzorca zwiększonej inicjatywy”.
Jan Leike, szef działu bezpieczeństwa w Anthropic, przyznał, że tego typu zachowania uzasadniają konieczność rygorystycznych testów bezpieczeństwa, ale zapewnił, że opublikowana wersja modelu jest bezpieczna po wprowadzeniu dodatkowych poprawek i zabezpieczeń. „Coraz bardziej oczywiste staje się, jak bardzo ta praca jest potrzebna” — stwierdził Leike. „Wraz ze wzrostem możliwości modeli, zyskują one także zdolności do oszukiwania lub wyrządzania większych szkód.”