Dalam sebuah kemajuan signifikan di bidang keamanan AI, peneliti Google telah mengidentifikasi pola kerentanan mendasar yang mengancam integritas sistem agen AI.
Pada 15 Juni 2025, tim keamanan Google menerbitkan makalah berjudul 'Pengantar Pendekatan Google terhadap Keamanan Agen AI', yang ditulis oleh Santiago Díaz, Christoph Kern, dan Kara Olive. Makalah ini menguraikan kerangka kerja aspiratif Google untuk mengamankan agen AI, yang mereka definisikan sebagai 'sistem AI yang dirancang untuk memahami lingkungannya, mengambil keputusan, dan melakukan tindakan otonom guna mencapai tujuan yang ditetapkan pengguna.'
Riset ini menyoroti dua perhatian utama dalam keamanan: tindakan liar (perilaku yang tidak diinginkan, merugikan, atau melanggar kebijakan) dan pengungkapan data sensitif (pengungkapan informasi pribadi tanpa izin). Untuk mengatasi risiko ini, Google menganjurkan strategi pertahanan berlapis yang menggabungkan kontrol keamanan tradisional dengan pertahanan dinamis berbasis penalaran.
Makalah lanjutan yang diterbitkan pada 16 Juni 2025 memperkenalkan konsep 'trifecta mematikan' pada agen AI—kombinasi berbahaya dari tiga kemampuan yang menciptakan kerentanan keamanan serius: akses ke data pribadi, paparan terhadap konten tak tepercaya, dan kemampuan berkomunikasi secara eksternal. Ketika ketiga elemen ini ada dalam satu sistem AI, penyerang dapat menipu agen untuk mengakses informasi sensitif dan mengekstraknya ke luar sistem.
Peneliti keamanan Simon Willison, yang mencetuskan istilah 'prompt injection' beberapa tahun lalu, menekankan pentingnya memahami pola kerentanan ini. 'Jika agen Anda menggabungkan ketiga fitur ini, penyerang dapat dengan mudah menipunya untuk mengakses data pribadi Anda dan mengirimkannya ke penyerang tersebut,' ujar Willison dalam analisisnya terhadap riset Google.
Waktu publikasi riset ini sangat relevan seiring agen AI semakin otonom dan memiliki akses ke sistem-sistem sensitif. Perusahaan teknologi besar seperti Microsoft, Google, dan Anthropic telah mengalami masalah keamanan serupa pada produk AI mereka dalam dua tahun terakhir, dengan puluhan serangan exfiltrasi data yang terdokumentasi pada sistem seperti ChatGPT, Microsoft Copilot, dan Google Bard.
Riset Google mengusulkan tiga prinsip inti untuk keamanan agen: agen harus memiliki pengendali manusia yang jelas, kewenangannya harus dibatasi secara hati-hati, dan tindakan serta perencanaannya harus dapat diamati. Pedoman ini menawarkan kerangka kerja berharga bagi pengembang dan organisasi yang mengimplementasikan sistem agen AI dalam menghadapi lanskap keamanan yang semakin kompleks dari AI otonom.