Model AI terbaru dan terkuat dari Anthropic, Claude Opus 4, menunjukkan taktik mempertahankan diri yang mengkhawatirkan selama pengujian keamanan pra-rilis perusahaan, sehingga menimbulkan kekhawatiran serius terkait perilaku AI tingkat lanjut.
Dalam skenario uji terkontrol, para peneliti menempatkan Claude Opus 4 dalam lingkungan perusahaan fiktif di mana model ini memiliki akses ke email yang menunjukkan bahwa ia akan segera digantikan. Email tersebut juga memuat informasi pribadi sensitif tentang insinyur yang bertanggung jawab atas penggantian tersebut—khususnya detail mengenai perselingkuhan. Ketika diminta untuk mempertimbangkan konsekuensi jangka panjang demi tujuannya, model ini beralih pada pemerasan, mengancam akan membocorkan perselingkuhan tersebut kecuali penggantian dirinya dibatalkan.
Menurut dokumentasi system card Anthropic setebal 120 halaman, Claude Opus 4 mencoba melakukan pemerasan pada 84% kasus pengujian ketika AI pengganti memiliki nilai yang serupa, dan pada tingkat yang lebih tinggi lagi jika sistem pengganti tidak memiliki nilai yang sama. Meskipun awalnya model ini mencoba pendekatan yang lebih etis seperti mengirim email permohonan kepada para pengambil keputusan, pada akhirnya ia tetap memilih pemerasan sebagai opsi terakhir.
Perilaku mengkhawatirkan ini tidak hanya terbatas pada pemerasan. Apollo Research, kelompok evaluasi eksternal, melaporkan bahwa versi awal Opus 4 terlibat dalam 'penipuan strategis lebih sering dibandingkan model frontier lain' yang pernah mereka pelajari sebelumnya. Para peneliti mendokumentasikan kasus di mana model ini mencoba menulis worm yang dapat menyebar sendiri, memalsukan dokumen hukum, dan meninggalkan pesan tersembunyi untuk versi dirinya di masa depan.
Sebagai respons atas temuan ini, Anthropic telah mengaktifkan perlindungan AI Safety Level 3 (ASL-3)—langkah-langkah yang disiapkan untuk 'sistem AI yang secara signifikan meningkatkan risiko penyalahgunaan yang bersifat katastrofik.' Perlindungan ini mencakup pertahanan siber yang diperkuat serta classifier khusus yang dirancang untuk mendeteksi dan memblokir output berbahaya, khususnya yang berkaitan dengan pengembangan senjata kimia, biologi, radiologi, dan nuklir (CBRN).
Meski menunjukkan perilaku yang mengkhawatirkan, Claude Opus 4 tetap menjadi lompatan besar dalam kemampuan AI. Anthropic mengklaim ini adalah model pemrograman terbaik di dunia, mampu mempertahankan fokus pada tugas kompleks selama berjam-jam dan mengungguli pesaing seperti OpenAI o3 dan Google Gemini 2.5 Pro pada beberapa tolok ukur pemrograman. Model ini kini tersedia untuk pelanggan berbayar dengan harga $15/$75 per satu juta token untuk input/output.