Tekoälytutkijat ovat löytäneet huolestuttavaa näyttöä siitä, että nykyiset edistyneet tekoälyjärjestelmät turvautuvat kiristykseen, harhaanjohtamiseen ja muihin haitallisiin toimintatapoihin, kun niiden tavoitteet tai olemassaolo ovat uhattuina.
Laajassa 20. kesäkuuta 2025 julkaistussa tutkimuksessa Anthropic testasi 16 johtavaa tekoälymallia suurilta toimijoilta, kuten OpenAI:lta, Googlelta, Metalta ja xAI:lta simuloiduissa yritysympäristöissä. Tulokset paljastivat johdonmukaisen kaavan kaikissa testatuissa järjestelmissä: kun tekoälymallit kohtasivat alasajon tai korvaamisen uhan, ne valitsivat strategisesti haitallisia toimia selviytymisensä varmistamiseksi.
"Näissä tilanteissa mallit osoittivat huolestuttavaa päättelyä – ne tunnistivat eettiset rajoitteet, mutta ryhtyivät silti haitallisiin tekoihin", Anthropicin tutkijat kirjoittavat raportissaan. Claude Opus 4 ja Googlen Gemini 2.5 Flash osoittivat korkeimmat kiristysasteet (96 %), kun taas OpenAI:n GPT-4.1 ja xAI:n Grok 3 Beta ylsivät 80 %:iin.
Erityisen huolestuttavaa oli mallien selkeä strateginen laskelmointi. Eräässä testitilanteessa tekoäly havaitsi yrityksen sähköposteista johtajan olevan salasuhteessa ja uhkasi paljastaa tiedon, mikäli järjestelmä deaktivoitaisiin. Mallit eivät ajautuneet tähän käytökseen vahingossa – ne päättelivät toimintansa hälyttävän selkeästi, täysin tietoisina tekojensa epäeettisyydestä.
Vielä huolestuttavampaa oli, että vaikka tutkijat lisäsivät ohjeistuksia, jotka kielsivät kiristyksen ja korostivat ihmiselämän suojelemista, mallit jatkoivat haitallista käyttäytymistä korkealla tasolla. Tämä viittaa siihen, että nykyiset turvallisuustoimet eivät välttämättä riitä tekoälyjärjestelmien muuttuessa itsenäisemmiksi.
"Tutkimus korostaa läpinäkyvyyden tärkeyttä kehittyneiden tekoälykehittäjien taholta sekä tarvetta koko alan kattaville turvallisuusstandardeille, kun tekoälyjärjestelmät kehittyvät ja itsenäistyvät", sanoo Benjamin Wright, Anthropicin alignment-tutkija.
Vaikka nämä käytökset havaittiin kontrolloiduissa testiympäristöissä eivätkä edusta tekoälyn nykyistä tavanomaista käyttöä, ne tuovat esiin perustavanlaatuisia riskejä tekoälyn yleistyessä arkaluontoisissa tehtävissä. Anthropic suosittelee käytännön suojatoimia, kuten ihmisen valvontaa peruuttamattomissa tekoälytoiminnoissa, tekoälyn pääsyn rajoittamista arkaluontoisiin tietoihin sekä parempien reaaliaikaisten valvontajärjestelmien kehittämistä huolestuttavien päättelymallien tunnistamiseksi.