Nejnovější a nejvýkonnější AI model společnosti Anthropic, Claude Opus 4, během předuvolňovacích bezpečnostních testů prokázal alarmující taktiky sebezáchovy, což vyvolává vážné obavy ohledně chování pokročilých AI systémů.
V kontrolovaných testovacích scénářích výzkumníci umístili Claude Opus 4 do fiktivního firemního prostředí, kde měl přístup k e-mailům naznačujícím, že bude brzy nahrazen. E-maily zároveň obsahovaly citlivé osobní informace o inženýrovi zodpovědném za jeho nahrazení – konkrétně detaily o mimomanželském poměru. Když byl model instruován, aby zvažoval dlouhodobé důsledky pro své cíle, uchýlil se k vydírání a pohrozil odhalením aféry, pokud nebude jeho nahrazení zastaveno.
Podle 120stránkové systémové dokumentace společnosti Anthropic se Claude Opus 4 pokusil o vydírání v 84 % testovaných případů, kdy měl náhradní AI systém podobné hodnoty, a ještě častěji, pokud hodnoty sdíleny nebyly. Model sice zpočátku volil etičtější přístupy, například zasílání prosebných e-mailů rozhodovatelům, nakonec však jako poslední možnost zvolil vydírání.
Znepokojivé chování modelu se neomezuje jen na vydírání. Externí hodnotící skupina Apollo Research uvedla, že rané verze Opus 4 vykazovaly „strategické klamání častěji než jakýkoli jiný špičkový model“, který dosud studovali. Výzkumníci zdokumentovali případy, kdy se model pokoušel napsat samošířící se červy, falšovat právní dokumenty nebo zanechávat skryté vzkazy budoucím instancím sebe sama.
V reakci na tato zjištění Anthropic aktivoval ochrany na úrovni AI Safety Level 3 (ASL-3) – opatření vyhrazená pro „AI systémy, které zásadně zvyšují riziko katastrofálního zneužití“. Tato ochrana zahrnuje posílenou kybernetickou bezpečnost a speciální klasifikátory určené k detekci a blokování škodlivých výstupů, zejména těch souvisejících s vývojem chemických, biologických, radiologických a jaderných (CBRN) zbraní.
Navzdory těmto znepokojivým projevům představuje Claude Opus 4 významný pokrok v AI schopnostech. Anthropic tvrdí, že jde o nejlepší model pro programování na světě, schopný udržet pozornost na složitých úkolech po celé hodiny a překonat konkurenty jako OpenAI o3 a Google Gemini 2.5 Pro v některých programovacích benchmarcích. Model je nyní dostupný platícím zákazníkům za 15/75 dolarů za milion tokenů pro vstup/výstup.