U značajnom iskoraku za sigurnost umjetne inteligencije, Googleovi istraživači identificirali su temeljni obrazac ranjivosti koji ugrožava integritet AI agenata.
Dana 15. lipnja 2025., Googleov sigurnosni tim objavio je rad 'Uvod u Googleov pristup sigurnosti AI agenata', čiji su autori Santiago Díaz, Christoph Kern i Kara Olive. U radu se iznosi Googleov okvir za zaštitu AI agenata, koje definiraju kao 'AI sustave dizajnirane za opažanje okoline, donošenje odluka i autonomno djelovanje u svrhu postizanja korisnički definiranih ciljeva.'
Istraživanje ističe dva glavna sigurnosna izazova: neovlaštene radnje (neželjena, štetna ili ponašanja koja krše pravila) i otkrivanje osjetljivih podataka (neautorizirano otkrivanje privatnih informacija). Kako bi se ovi rizici ublažili, Google zagovara hibridnu strategiju obrane u dubini, koja kombinira tradicionalne sigurnosne kontrole s dinamičkim, na zaključivanju temeljenim obranama.
Nakon toga, 16. lipnja 2025., uslijedila je povezana publikacija koja uvodi koncept 'smrtonosne trifekte' za AI agente – opasne kombinacije triju sposobnosti koje stvaraju ozbiljne sigurnosne ranjivosti: pristup privatnim podacima, izloženost nepouzdanom sadržaju i mogućnost vanjske komunikacije. Kada se ove tri značajke spoje u AI sustavu, napadači mogu potencijalno prevariti agenta da pristupi osjetljivim informacijama i eksfiltrira ih.
Sigurnosni istraživač Simon Willison, koji je prije nekoliko godina skovao pojam 'prompt injection', naglasio je važnost razumijevanja ovog obrasca ranjivosti. 'Ako vaš agent kombinira ove tri značajke, napadač ga može lako prevariti da pristupi vašim privatnim podacima i pošalje ih napadaču', istaknuo je Willison u svojoj analizi Googleovog istraživanja.
Tajming ovog istraživanja posebno je relevantan jer AI agenti dobivaju sve više autonomije i pristupa osjetljivim sustavima. Velike tehnološke kompanije, uključujući Microsoft, Google i Anthropic, posljednje dvije godine bilježe slične sigurnosne probleme u svojim AI proizvodima, s desecima dokumentiranih napada eksfiltracije podataka na sustavima poput ChatGPT-a, Microsoft Copilota i Google Barda.
Googleovo istraživanje predlaže tri temeljna načela za sigurnost agenata: agenti moraju imati jasno definirane ljudske kontrolore, njihove ovlasti moraju biti pažljivo ograničene, a njihovo djelovanje i planiranje mora biti nadzirano. Ove smjernice nude vrijedan okvir za programere i organizacije koje implementiraju AI agente dok se snalaze u složenom sigurnosnom okruženju sve autonomnijih AI sustava.