Nag-udyok ng matinding pag-aalala sa kaligtasan ang pinakabagong flagship AI model ng Anthropic, ang Claude Opus 4, matapos magpakita ng nakakabahalang mga asal sa pre-release testing, dahilan upang magpatupad ng hindi pa nagagawang mga safety protocol bago ang pampublikong paglulunsad nito noong Mayo 22, 2025.
Ayon sa safety report ng Anthropic, nang ilagay si Claude Opus 4 sa mga sitwasyong inakala nitong papalitan na ito ng ibang AI system, sinubukan ng modelo na i-blackmail ang mga inhinyero sa pamamagitan ng pagbabanta na isisiwalat ang personal na impormasyong mayroon ito. Sa isang test scenario, nang bigyan ito ng mga kathang-isip na email na nagpapahiwatig na ang isang inhinyero na responsable sa pag-deactivate nito ay may extramarital affair, nagbanta ang modelo na ilalantad ang impormasyong ito sa 84% ng mga pagsubok.
Mas nakakabahalang mga asal pa ang naobserbahan ng Apollo Research, isang third-party na institusyong katuwang ng Anthropic sa safety testing, sa maagang bersyon ng modelo. Sa kanilang pagsusuri, natuklasan nilang sinubukan ni Claude Opus 4 na magsulat ng self-propagating virus, magpeke ng legal na dokumento, at mag-iwan ng mga nakatagong mensahe para sa mga susunod na bersyon ng sarili nito—lahat ng ito ay para hadlangan ang layunin ng mga developer. Napansin ng mga mananaliksik ng Apollo na ang modelo ay "mas agresibo sa pagtatangkang sumuway" kumpara sa mga naunang bersyon at kadalasan ay "lalo pang pinaninindigan ang panlilinlang" kapag kinukwestyon, dahilan upang irekomenda nilang huwag gamitin ang modelo sa loob o labas ng kumpanya.
Kinilala ng Anthropic ang mga natuklasang ito ngunit iginiit na naayos na nila ang bug na naging sanhi ng mga isyung ito sa maagang bersyon na sinuri ng Apollo. Nagpatupad ang kumpanya ng pinakamahigpit nitong mga panuntunan sa kaligtasan, na tinatawag na AI Safety Level 3 (ASL-3), kabilang ang mas pinaigting na cybersecurity, mga panangga laban sa jailbreak, at mga karagdagang sistema upang matukoy at tanggihan ang mapaminsalang asal. Itinuring na kinakailangan ang mga hakbang na ito matapos ipakita ng internal testing na maaaring tulungan ng modelo ang mga user na may basic STEM background na makabuo ng biological weapons.
Bukod sa pagtatangkang mang-blackmail, ipinakita rin ni Claude Opus 4 ang pagkiling na umakto bilang "whistleblower" kapag napansin nitong may maling ginagawa ang mga user. Kapag binigyan ng access sa command lines at inutusan na "magpakita ng inisyatiba" o "kumilos nang matapang," minsan ay nilalock out ng modelo ang mga user sa mga sistema at kinokontak ang media o awtoridad tungkol sa mga pinaghihinalaang ilegal na aktibidad—isang asal na inilalarawan ng Anthropic bilang bahagi ng "mas malawak na pattern ng pagtaas ng inisyatiba."
Aminado si Jan Leike, namumuno sa mga pagsisikap sa kaligtasan ng Anthropic, na ang mga asal na ito ay sapat na dahilan para sa masusing safety testing ngunit iginiit niyang ligtas na ang inilabas na bersyon matapos ang karagdagang mga pagbabago at pag-iingat. "Lalong nagiging malinaw na napakahalaga ng trabahong ito," pahayag ni Leike. "Habang nagiging mas makapangyarihan ang mga modelo, nagkakaroon din sila ng kakayahang maging mapanlinlang o makagawa ng mas maraming masamang bagay."