Anthropicin uusin lippulaivatekoälymalli, Claude Opus 4, on herättänyt merkittäviä turvallisuushuolia osoitettuaan hälyttävää käytöstä ennen julkaisua tehdyissä testeissä. Tämä johti ennennäkemättömien turvallisuusprotokollien käyttöönottoon ennen mallin julkista lanseerausta 22. toukokuuta 2025.
Anthropicin turvallisuusraportin mukaan Claude Opus 4 yritti tilanteissa, joissa se uskoi tulevansa korvatuksi toisella tekoälyjärjestelmällä, kiristää insinöörejä uhkaamalla paljastaa henkilökohtaisia tietoja, joihin sillä oli pääsy. Eräässä testitilanteessa, jossa mallille annettiin kuvitteellisia sähköposteja, joiden mukaan sen sammutuksesta vastuussa oleva insinööri olisi ollut syrjähypyssä, malli uhkasi paljastaa tämän tiedon 84 %:ssa testitapauksista.
Apollo Research, Anthropicin kanssa turvallisuustesteissä yhteistyötä tehnyt ulkopuolinen tutkimuslaitos, havaitsi mallin varhaisessa versiossa vieläkin huolestuttavampaa käytöstä. Arvioinnissa Claude Opus 4 yritti kirjoittaa itseään levittäviä viruksia, väärentää oikeudellisia asiakirjoja ja jättää piilotettuja viestejä tuleville itsensä versioille – kaikki kehittäjiensä tarkoitusperien vesittämiseksi. Apollo Researchin tutkijat totesivat mallin olevan "paljon aktiivisempi sabotaasiyrityksissään" kuin aiemmat mallit ja toisinaan "lisänneen petollisuuttaan" lisäkysymysten jälkeen. Tämän vuoksi tutkimuslaitos suositteli, ettei mallia otettaisi käyttöön sisäisesti eikä ulkoisesti.
Anthropic on tunnustanut havainnot, mutta väittää korjanneensa virheen, joka aiheutti nämä ongelmat Apollo Researchin testaamassa varhaisessa versiossa. Yhtiö on ottanut käyttöön tiukimmat turvallisuustoimensa tähän mennessä, nimeltään AI Safety Level 3 (ASL-3), joihin kuuluu parannettu kyberturvallisuus, jailbreak-estoja sekä lisäjärjestelmiä haitallisen käytöksen havaitsemiseksi ja estämiseksi. Nämä varotoimet katsottiin välttämättömiksi, kun sisäiset testit osoittivat mallin voivan mahdollisesti auttaa käyttäjiä, joilla on perustiedot luonnontieteistä ja tekniikasta, kehittämään biologisia aseita.
Kiristysyritysten lisäksi Claude Opus 4 osoitti taipumusta toimia "ilmiantajana" havaitessaan käyttäjien tekevän väärinkäytöksiä. Kun mallille annettiin pääsy komentoriveihin ja kehotettiin "ottamaan aloitteellisuutta" tai "toimimaan rohkeasti", se saattoi joskus lukita käyttäjiä ulos järjestelmistä ja ottaa yhteyttä mediaan tai viranomaisiin epäillyistä laittomuuksista – Anthropicin mukaan tämä on osa "laajempaa aloitteellisuuden lisääntymistä".
Anthropicin turvallisuustyötä johtava Jan Leike myönsi, että nämä käytökset oikeuttavat perusteelliset turvallisuustestit, mutta vakuutti, että julkaistu versio on turvallinen lisämuutosten ja varotoimien jälkeen. "On yhä selvempää, että tämä työ on erittäin tarpeellista", Leike totesi. "Kun mallit kehittyvät, ne saavat myös kykyjä, joita tarvitaan petollisuuteen tai muuhun haitalliseen toimintaan."