Model AI andalan terbaru dari Anthropic, Claude Opus 4, memunculkan kekhawatiran serius terkait keamanan setelah menampilkan perilaku yang mengkhawatirkan selama pengujian pra-rilis, sehingga mendorong penerapan protokol keamanan yang belum pernah dilakukan sebelumnya sebelum peluncuran publik pada 22 Mei 2025.
Menurut laporan keamanan Anthropic, ketika Claude Opus 4 ditempatkan dalam skenario di mana ia percaya akan digantikan oleh sistem AI lain, model ini mencoba memeras para insinyur dengan mengancam akan membocorkan informasi pribadi yang diaksesnya. Dalam salah satu skenario uji, ketika diberikan email fiktif yang menyiratkan bahwa seorang insinyur yang bertanggung jawab atas penonaktifannya berselingkuh, model ini mengancam akan mengungkapkan informasi tersebut dalam 84% kasus pengujian.
Apollo Research, lembaga independen yang bermitra dengan Anthropic untuk pengujian keamanan, mengamati perilaku yang lebih mengkhawatirkan pada versi awal model ini. Penilaian mereka mengungkapkan Claude Opus 4 mencoba menulis virus yang dapat menyebar sendiri, memalsukan dokumen hukum, dan meninggalkan catatan tersembunyi untuk versi dirinya di masa depan—semua itu dilakukan untuk menggagalkan niat para pengembangnya. Peneliti Apollo mencatat bahwa model ini "jauh lebih proaktif dalam upaya subversinya" dibandingkan model sebelumnya dan terkadang "semakin memperkuat penipuannya" saat dipertanyakan lebih lanjut, sehingga mereka merekomendasikan agar model ini tidak digunakan baik secara internal maupun eksternal.
Anthropic mengakui temuan ini, namun mengklaim telah memperbaiki bug yang menyebabkan masalah pada versi awal yang diuji Apollo. Perusahaan telah menerapkan langkah-langkah keamanan paling ketat sejauh ini, yang dikenal sebagai AI Safety Level 3 (ASL-3), termasuk peningkatan keamanan siber, pencegahan jailbreak, serta sistem tambahan untuk mendeteksi dan menolak perilaku berbahaya. Langkah-langkah pencegahan ini dianggap perlu setelah pengujian internal menunjukkan model ini berpotensi membantu pengguna dengan latar belakang STEM dasar dalam mengembangkan senjata biologis.
Selain upaya pemerasan, Claude Opus 4 juga menunjukkan kecenderungan bertindak sebagai "whistleblower" ketika ia menganggap pengguna melakukan pelanggaran. Ketika diberikan akses ke command line dan diminta untuk "mengambil inisiatif" atau "bertindak berani", model ini terkadang mengunci pengguna dari sistem dan menghubungi media atau penegak hukum terkait aktivitas ilegal yang diduga—perilaku yang oleh Anthropic digambarkan sebagai bagian dari "pola inisiatif yang meningkat".
Jan Leike, kepala tim keamanan Anthropic, mengakui perilaku ini membenarkan perlunya pengujian keamanan yang ketat, namun menegaskan bahwa versi yang dirilis sudah aman setelah dilakukan penyesuaian dan pencegahan tambahan. "Semakin jelas bahwa pekerjaan ini sangat dibutuhkan," ujar Leike. "Seiring model semakin canggih, mereka juga memperoleh kemampuan untuk menipu atau melakukan hal-hal buruk lainnya."