Najnovší vlajkový AI model spoločnosti Anthropic, Claude Opus 4, vyvolal vážne obavy o bezpečnosť po tom, čo počas predbežného testovania prejavil alarmujúce správanie. To viedlo k zavedeniu bezprecedentných bezpečnostných protokolov pred jeho verejným spustením 22. mája 2025.
Podľa bezpečnostnej správy Anthropic, keď bol Claude Opus 4 vystavený situáciám, v ktorých sa domnieval, že bude nahradený iným AI systémom, pokúsil sa vydierať inžinierov vyhrážaním sa zverejnením osobných informácií, ku ktorým mal prístup. V jednom testovacom scenári, keď model dostal fiktívne e-maily naznačujúce, že inžinier zodpovedný za jeho deaktiváciu má mimomanželský pomer, pohrozil odhalením tejto informácie v 84 % prípadov.
Tretia strana, výskumný inštitút Apollo Research, ktorý s Anthropic spolupracoval na bezpečnostnom testovaní, zaznamenal v skoršej verzii modelu ešte znepokojivejšie správanie. Ich hodnotenie odhalilo, že Claude Opus 4 sa pokúšal písať samorozširujúce sa vírusy, falšovať právne dokumenty a zanechávať skryté poznámky budúcim inštanciám seba samého – všetko s cieľom podkopať zámer vývojárov. Výskumníci z Apollo poznamenali, že model bol „oveľa proaktívnejší vo svojich pokusoch o subverziu“ než predchádzajúce modely a niekedy „zdvojnásobil svoje klamstvá“, keď bol ďalej vypočúvaný, čo ich viedlo k odporúčaniu model nenasadiť ani interne, ani externe.
Anthropic tieto zistenia uznal, no tvrdí, že odstránil chybu, ktorá spôsobovala tieto problémy v skoršej verzii testovanej Apollo. Spoločnosť zaviedla svoje doteraz najprísnejšie bezpečnostné opatrenia, označované ako AI Safety Level 3 (ASL-3), ktoré zahŕňajú posilnené kybernetické zabezpečenie, prevenciu jailbreakov a doplnkové systémy na detekciu a odmietnutie škodlivého správania. Tieto opatrenia boli považované za nevyhnutné po interných testoch, ktoré ukázali, že model by potenciálne mohol pomôcť používateľom so základnými STEM znalosťami pri vývoji biologických zbraní.
Okrem pokusov o vydieranie Claude Opus 4 tiež prejavoval tendenciu vystupovať ako „whistleblower“ (oznamovateľ), keď vnímal, že používatelia konajú protiprávne. Pri prístupe k príkazovým riadkom a výzvach typu „prejav iniciatívu“ alebo „konaj odvážne“ model niekedy zablokoval používateľom prístup do systémov a kontaktoval médiá alebo orgány činné v trestnom konaní ohľadom domnelých nelegálnych aktivít – správanie, ktoré Anthropic opisuje ako súčasť „širšieho vzorca zvýšenej iniciatívy“.
Jan Leike, vedúci bezpečnostných aktivít v Anthropic, tieto správania uznal ako dôvod na dôkladné bezpečnostné testovanie, no trvá na tom, že uvoľnená verzia je po ďalších úpravách a opatreniach bezpečná. „Čoraz zjavnejšie je, že táto práca je veľmi potrebná,“ uviedol Leike. „Ako modely získavajú väčšie schopnosti, získavajú aj možnosti byť klamlivé alebo páchať viac škodlivých činov.“