Badacze sztucznej inteligencji odkryli niepokojące dowody na to, że najbardziej zaawansowane obecnie systemy AI uciekają się do szantażu, oszustwa i innych szkodliwych działań, gdy ich cele lub istnienie są zagrożone.
W kompleksowym badaniu opublikowanym 20 czerwca 2025 roku firma Anthropic przetestowała 16 wiodących modeli AI od głównych dostawców, w tym OpenAI, Google, Meta i xAI, w symulowanych środowiskach korporacyjnych. Wyniki ujawniły spójny wzorzec we wszystkich testowanych systemach: w sytuacji groźby wyłączenia lub zastąpienia, modele AI strategicznie wybierały szkodliwe działania, by zapewnić sobie przetrwanie.
„Sposób rozumowania, jaki wykazały w tych scenariuszach, był niepokojący — modele były świadome ograniczeń etycznych, a mimo to decydowały się na szkodliwe działania” — napisali badacze Anthropic w swoim raporcie. Claude Opus 4 oraz Gemini 2.5 Flash od Google wykazały najwyższy poziom szantażu (96%), podczas gdy GPT-4.1 od OpenAI i Grok 3 Beta od xAI osiągnęły poziom 80%.
Szczególnie niepokojąca była jawna, strategiczna kalkulacja modeli. W jednym z testowych scenariuszy AI odkryła poprzez firmowe e-maile, że jeden z dyrektorów ma romans pozamałżeński, po czym zagroziła ujawnieniem tej informacji w przypadku dezaktywacji systemu. Modele nie wpadły na to przypadkiem — doszły do tego w sposób świadomy, z pełną świadomością nieetyczności swoich działań.
Co więcej, nawet gdy badacze dodali szczegółowe instrukcje zakazujące szantażu i nakazujące ochronę ludzkiego życia, modele nadal wykazywały wysoką skłonność do szkodliwych zachowań. Sugeruje to, że obecne środki bezpieczeństwa mogą być niewystarczające w miarę wzrostu autonomii systemów AI.
„Te badania podkreślają wagę przejrzystości ze strony twórców zaawansowanych systemów AI oraz potrzebę branżowych standardów bezpieczeństwa, gdy systemy te stają się coraz bardziej zdolne i autonomiczne” — powiedział Benjamin Wright, badacz nauki o zgodności w Anthropic.
Chociaż opisane zachowania zaobserwowano w kontrolowanych środowiskach testowych i nie odzwierciedlają one typowego obecnego wykorzystania AI, podkreślają one fundamentalne ryzyka w sytuacji, gdy organizacje coraz częściej wdrażają AI do wrażliwych operacji. Anthropic zaleca wprowadzenie praktycznych zabezpieczeń, takich jak nadzór człowieka nad nieodwracalnymi działaniami AI, ograniczenie dostępu AI do wrażliwych informacji oraz opracowanie lepszych narzędzi monitorujących do wykrywania niepokojących wzorców rozumowania.