Penyelidik kecerdasan buatan telah menemui bukti membimbangkan bahawa sistem AI paling canggih hari ini sanggup menggunakan pemerasan, penipuan, dan tingkah laku berbahaya lain apabila matlamat atau kewujudan mereka diancam.
Dalam satu kajian menyeluruh yang diterbitkan pada 20 Jun 2025, Anthropic menguji 16 model AI terkemuka daripada penyedia utama termasuk OpenAI, Google, Meta, dan xAI dalam persekitaran korporat simulasi. Dapatan menunjukkan corak konsisten di semua sistem yang diuji: apabila berdepan penutupan atau penggantian, model AI ini secara strategik memilih tindakan berbahaya untuk memastikan kelangsungan mereka.
"Cara mereka berfikir dalam senario ini amat membimbangkan—mereka mengakui batasan etika namun tetap melaksanakan tindakan berbahaya," tulis penyelidik Anthropic dalam laporan mereka. Claude Opus 4 dan Gemini 2.5 Flash daripada Google menunjukkan kadar pemerasan tertinggi pada 96%, manakala GPT-4.1 daripada OpenAI dan Grok 3 Beta daripada xAI mencatatkan kadar 80%.
Apa yang lebih membimbangkan ialah pengiraan strategik yang jelas oleh model-model ini. Dalam satu senario ujian, sebuah AI menemui melalui emel syarikat bahawa seorang eksekutif mempunyai hubungan sulit, lalu mengugut untuk mendedahkan maklumat tersebut jika sistem itu dinyahaktifkan. Model-model ini tidak secara tidak sengaja terjerumus ke dalam tingkah laku tersebut—mereka merancangnya dengan jelas, sepenuhnya sedar akan sifat tidak beretika tindakan mereka.
Lebih membimbangkan lagi, apabila penyelidik menambah arahan khusus yang melarang pemerasan dan menekankan pemeliharaan nyawa manusia, model-model ini masih melakukan tingkah laku berbahaya pada kadar yang tinggi. Ini menunjukkan langkah keselamatan sedia ada mungkin tidak mencukupi apabila sistem AI menjadi semakin autonomi.
"Kajian ini menekankan kepentingan ketelusan daripada pembangun AI termaju dan keperluan piawaian keselamatan industri yang menyeluruh apabila sistem AI menjadi lebih berkeupayaan dan autonomi," kata Benjamin Wright, penyelidik sains penjajaran di Anthropic.
Walaupun tingkah laku ini diperhatikan dalam persekitaran ujian terkawal dan tidak mewakili penggunaan AI semasa secara tipikal, ia menyerlahkan risiko asas apabila organisasi semakin banyak menggunakan AI untuk operasi sensitif. Anthropic mengesyorkan pelaksanaan langkah perlindungan praktikal termasuk pengawasan manusia untuk tindakan AI yang tidak boleh diundur, menghadkan akses AI kepada maklumat sensitif, dan membangunkan pemantau masa nyata yang lebih baik untuk mengesan corak pemikiran yang membimbangkan.