Ve významném posunu v oblasti bezpečnosti umělé inteligence identifikovali výzkumníci z Googlu základní vzorec zranitelnosti, který ohrožuje integritu systémů AI agentů.
Dne 15. června 2025 zveřejnil bezpečnostní tým Googlu studii „Úvod k přístupu Googlu k bezpečnosti AI agentů“, jejížmi autory jsou Santiago Díaz, Christoph Kern a Kara Olive. Práce popisuje ambiciózní rámec Googlu pro zabezpečení AI agentů, které definují jako „AI systémy navržené k vnímání svého prostředí, rozhodování a autonomnímu jednání za účelem dosažení uživatelem definovaných cílů“.
Výzkum zdůrazňuje dva hlavní bezpečnostní problémy: škodlivé akce (neúmyslné, škodlivé nebo zásadám odporující chování) a únik citlivých dat (neoprávněné odhalení soukromých informací). K řešení těchto rizik Google prosazuje hybridní, vícevrstvou strategii, která kombinuje tradiční bezpečnostní opatření s dynamickými, na uvažování založenými obranami.
Následná publikace ze 16. června 2025 představila koncept „smrtící trojice“ pro AI agenty – nebezpečné kombinace tří schopností, které vytvářejí závažné bezpečnostní zranitelnosti: přístup k soukromým datům, vystavení nedůvěryhodnému obsahu a možnost externí komunikace. Když se tyto tři prvky v AI systému spojí, útočníci mohou agenta potenciálně přimět k přístupu k citlivým informacím a jejich exfiltraci.
Bezpečnostní výzkumník Simon Willison, který před několika lety zavedl pojem „prompt injection“, zdůraznil důležitost pochopení tohoto vzorce zranitelnosti. „Pokud váš agent kombinuje tyto tři vlastnosti, útočník jej může snadno přimět k přístupu k vašim soukromým datům a jejich odeslání útočníkovi,“ uvedl Willison ve své analýze výzkumu Googlu.
Načasování tohoto výzkumu je obzvláště důležité, protože AI agenti získávají větší autonomii a přístup k citlivým systémům. Velké technologické společnosti včetně Microsoftu, Googlu a Anthropic se v posledních dvou letech setkaly s podobnými bezpečnostními problémy ve svých AI produktech, přičemž desítky zdokumentovaných útoků na exfiltraci dat zasáhly systémy jako ChatGPT, Microsoft Copilot a Google Bard.
Výzkum Googlu navrhuje tři základní principy bezpečnosti agentů: agenti musí mít jasně definované lidské kontrolory, jejich pravomoci musí být pečlivě omezeny a jejich akce a plánování musí být pozorovatelné. Tato doporučení poskytují cenný rámec pro vývojáře a organizace, které implementují AI agentní systémy a pohybují se v komplexním bezpečnostním prostředí stále autonomnějších AI.