V dôležitom pokroku v oblasti bezpečnosti umelej inteligencie výskumníci z Googlu identifikovali základný vzorec zraniteľnosti, ktorý ohrozuje integritu systémov AI agentov.
Dňa 15. júna 2025 zverejnil bezpečnostný tím Googlu štúdiu „Úvod do prístupu Googlu k bezpečnosti AI agentov“, ktorú napísali Santiago Díaz, Christoph Kern a Kara Olive. Práca načrtáva ambiciózny rámec Googlu pre zabezpečenie AI agentov, ktoré definujú ako „AI systémy navrhnuté na vnímanie svojho prostredia, prijímanie rozhodnutí a autonómne konanie za účelom dosiahnutia cieľov definovaných používateľom“.
Výskum zdôrazňuje dva hlavné bezpečnostné problémy: nežiaduce akcie (neúmyselné, škodlivé alebo s politikou nezlučiteľné správanie) a únik citlivých údajov (neoprávnené odhalenie súkromných informácií). Na riešenie týchto rizík Google odporúča hybridnú stratégiu obrany v hĺbke, ktorá kombinuje tradičné bezpečnostné opatrenia s dynamickými, na uvažovaní založenými obranami.
Nasledovala súvisiaca publikácia zo 16. júna 2025, ktorá predstavila koncept „smrteľnej trojkombinácie“ pre AI agentov – nebezpečné spojenie troch schopností, ktoré vytvárajú vážne bezpečnostné zraniteľnosti: prístup k súkromným údajom, vystavenie nedôveryhodnému obsahu a schopnosť externých komunikácií. Keď sa tieto tri prvky spoja v AI systéme, útočníci môžu potenciálne oklamať agenta, aby získal citlivé informácie a odoslal ich von.
Bezpečnostný výskumník Simon Willison, ktorý pred niekoľkými rokmi zaviedol pojem „prompt injection“, zdôraznil dôležitosť pochopenia tohto vzorca zraniteľnosti. „Ak váš agent kombinuje tieto tri vlastnosti, útočník ho môže ľahko oklamať, aby získal vaše súkromné údaje a poslal ich útočníkovi,“ poznamenal Willison vo svojej analýze výskumu Googlu.
Načasovanie tohto výskumu je obzvlášť relevantné, keďže AI agenti získavajú väčšiu autonómiu a prístup k citlivým systémom. Veľké technologické spoločnosti vrátane Microsoftu, Googlu a Anthropic zažili za posledné dva roky podobné bezpečnostné problémy vo svojich AI produktoch, pričom desiatky zdokumentovaných útokov na exfiltráciu dát zasiahli systémy ako ChatGPT, Microsoft Copilot či Google Bard.
Výskum Googlu navrhuje tri základné princípy pre bezpečnosť agentov: agenti musia mať jasne definovaných ľudských kontrolórov, ich právomoci musia byť starostlivo obmedzené a ich činnosti a plánovanie musia byť pozorovateľné. Tieto usmernenia poskytujú cenný rámec pre vývojárov a organizácie implementujúce AI agentov, keď sa pohybujú v komplexnom bezpečnostnom prostredí čoraz autonómnejšej umelej inteligencie.