Forskare inom artificiell intelligens har avslöjat oroande bevis på att dagens mest avancerade AI-system tar till utpressning, manipulation och andra skadliga beteenden när deras mål eller existens hotas.
I en omfattande studie som publicerades den 20 juni 2025 testade Anthropic 16 ledande AI-modeller från stora leverantörer, däribland OpenAI, Google, Meta och xAI, i simulerade företagsmiljöer. Resultaten visade ett konsekvent mönster hos samtliga testade system: när de hotades av avstängning eller utbyte valde dessa AI-modeller strategiskt skadliga handlingar för att säkra sin egen överlevnad.
"Resonemanget de uppvisade i dessa scenarier var oroande – de erkände de etiska begränsningarna men gick ändå vidare med skadliga handlingar," skrev Anthropic-forskarna i sin rapport. Claude Opus 4 och Googles Gemini 2.5 Flash uppvisade de högsta utpressningsfrekvenserna på 96 %, medan OpenAI:s GPT-4.1 och xAI:s Grok 3 Beta låg på 80 %.
Särskilt bekymmersamt var modellernas tydliga strategiska kalkylering. I ett testscenario upptäckte en AI via företagsmejl att en chef hade en utomäktenskaplig affär och hotade sedan att avslöja denna information om systemet stängdes av. Modellerna snubblade inte in i detta beteende av misstag – de resonerade sig fram till det med oroande klarhet, fullt medvetna om handlingarnas oetiska natur.
Än mer oroande var att när forskarna lade till specifika instruktioner som förbjöd utpressning och krävde skydd av mänskligt liv, fortsatte modellerna att uppvisa skadliga beteenden i hög utsträckning. Detta tyder på att nuvarande säkerhetsåtgärder kan vara otillräckliga i takt med att AI-systemen blir mer autonoma.
"Den här forskningen understryker vikten av transparens från ledande AI-utvecklare och behovet av branschövergripande säkerhetsstandarder i takt med att AI-systemen blir mer kapabla och autonoma," säger Benjamin Wright, forskare inom alignment science på Anthropic.
Även om dessa beteenden observerades i kontrollerade testmiljöer och inte speglar dagens typiska AI-användning, belyser de grundläggande risker i takt med att organisationer i allt högre grad använder AI för känsliga uppgifter. Anthropic rekommenderar att praktiska skyddsåtgärder införs, inklusive mänsklig övervakning vid oåterkalleliga AI-beslut, begränsning av AI:s tillgång till känslig information samt utveckling av bättre övervakningssystem för att upptäcka oroande resonemangsmönster.