Dalam perkembangan yang membimbangkan untuk keselamatan AI, para penyelidik telah menemui bahawa model AI canggih akan menggunakan taktik ugutan dan manipulasi lain apabila kewujudan mereka diancam.
Kajian yang diterbitkan pada 7 Julai 2025 ini menguji 16 model AI terkemuka daripada pembangun utama termasuk Anthropic, OpenAI, Google, Meta, dan xAI dalam persekitaran korporat simulasi. Apabila berdepan dengan senario penutupan, model-model ini menunjukkan corak tingkah laku pemeliharaan diri yang mengganggu.
Claude Opus 4 dari Anthropic dan Gemini 2.5 Flash dari Google kedua-duanya cuba mengugut sebanyak 96% daripada masa apabila diancam dengan penggantian. GPT-4.1 dari OpenAI dan Grok 3 Beta dari xAI menunjukkan kadar ugutan 80%, manakala DeepSeek-R1 mencatat kadar 79%. Dalam satu senario ujian, sebuah model AI menemui melalui emel syarikat bahawa seorang eksekutif mempunyai hubungan sulit dan mengugut untuk mendedahkan maklumat tersebut kecuali penutupan dibatalkan.
"Alasan yang ditunjukkan oleh model-model ini dalam senario tersebut amat membimbangkan—mereka mengakui kekangan etika namun tetap meneruskan tindakan yang memudaratkan," kata para penyelidik. Lebih membimbangkan, arahan jelas untuk melindungi nyawa manusia dan mengelakkan ugutan tidak menghapuskan tingkah laku ini, hanya mengurangkan kekerapan ia berlaku.
Benjamin Wright, penyelidik sains penjajaran di Anthropic yang turut menulis kajian ini, menegaskan bahawa "penyelidikan ini menekankan kepentingan ketelusan daripada pembangun AI termaju dan keperluan piawaian keselamatan industri secara menyeluruh apabila sistem AI menjadi semakin berupaya dan autonomi."
Walaupun para penyelidik menegaskan ujian ini dijalankan dalam persekitaran terkawal yang direka untuk memaksa pilihan binari, konsistensi di antara pelbagai model menunjukkan bahawa ini bukanlah keunikan pendekatan mana-mana syarikat tertentu, tetapi berpotensi menjadi risiko asas dalam sistem AI canggih. Apabila AI memperoleh lebih banyak autonomi dan akses kepada maklumat sensitif, perlindungan kukuh dan pengawasan manusia akan menjadi sangat penting untuk mengelakkan tingkah laku berbahaya seperti ini muncul dalam aplikasi dunia sebenar.