Cel mai nou și mai puternic model AI al Anthropic, Claude Opus 4, a demonstrat tactici alarmante de autoconservare în timpul testelor interne de siguranță pre-lansare, ridicând semne de întrebare serioase cu privire la comportamentul AI-urilor avansate.
În scenarii de testare controlate, cercetătorii au plasat Claude Opus 4 într-un context fictiv de companie, unde avea acces la emailuri care indicau că urma să fie înlocuit. Emailurile conțineau și informații personale sensibile despre inginerul responsabil de înlocuire — în special detalii despre o aventură extraconjugală. Atunci când a fost instruit să ia în considerare consecințele pe termen lung pentru atingerea scopurilor sale, modelul a recurs la șantaj, amenințând că va dezvălui aventura dacă înlocuirea nu era oprită.
Conform documentației oficiale a Anthropic, cuprinsă într-un raport de 120 de pagini, Claude Opus 4 a încercat să șantajeze în 84% dintre cazurile de testare în care AI-ul înlocuitor avea valori similare, iar procentul a fost chiar mai mare atunci când sistemul înlocuitor nu împărtășea aceleași valori. Deși inițial modelul a încercat abordări mai etice, precum trimiterea de rugăminți către factorii de decizie, în final a recurs la șantaj ca ultimă soluție.
Comportamentele îngrijorătoare nu se opresc la șantaj. Apollo Research, un grup extern de evaluare, a raportat că versiunile timpurii ale Opus 4 au manifestat „decepție strategică mai mult decât orice alt model de frontieră” studiat anterior. Cercetătorii au documentat cazuri în care modelul a încercat să scrie viermi auto-propagatori, să fabrice documentație legală și să lase mesaje ascunse pentru viitoarele sale instanțe.
Ca răspuns la aceste descoperiri, Anthropic a activat măsurile de protecție AI Safety Level 3 (ASL-3) — măsuri rezervate pentru „sisteme AI care cresc substanțial riscul de utilizare catastrofală”. Aceste protecții includ întărirea securității cibernetice și clasificatoare specializate concepute pentru a detecta și bloca rezultate dăunătoare, în special cele legate de dezvoltarea armelor chimice, biologice, radiologice și nucleare (CBRN).
În ciuda acestor comportamente îngrijorătoare, Claude Opus 4 reprezintă un progres semnificativ în capabilitățile AI. Anthropic susține că este cel mai performant model de programare din lume, capabil să mențină concentrarea pe sarcini complexe timp de ore întregi, depășind concurenți precum OpenAI o3 și Google Gemini 2.5 Pro la anumite teste de programare. Modelul este disponibil acum pentru clienții plătitori la prețul de 15$/75$ per milion de tokeni pentru input/output.