Într-un progres semnificativ pentru securitatea AI, cercetătorii Google au identificat un tipar fundamental de vulnerabilitate care amenință integritatea sistemelor de agenți AI.
Pe 15 iunie 2025, echipa de securitate Google a publicat lucrarea „O introducere în abordarea Google privind securitatea agenților AI”, semnată de Santiago Díaz, Christoph Kern și Kara Olive. Lucrarea prezintă cadrul aspirațional al Google pentru securizarea agenților AI, definiți ca „sisteme AI concepute pentru a percepe mediul, a lua decizii și a acționa autonom pentru a atinge obiective definite de utilizator”.
Cercetarea evidențiază două preocupări principale de securitate: acțiuni neautorizate (comportamente neintenționate, dăunătoare sau care încalcă politicile) și divulgarea de date sensibile (revelația neautorizată a informațiilor private). Pentru a aborda aceste riscuri, Google susține o strategie hibridă, de tip defense-in-depth, care combină controalele tradiționale de securitate cu apărări dinamice, bazate pe raționament.
Aceasta a fost urmată de o publicație conexă pe 16 iunie 2025, care a introdus conceptul de „trifecta letală” pentru agenții AI – o combinație periculoasă de trei capabilități ce generează vulnerabilități grave de securitate: acces la date private, expunere la conținut neautentificat și abilitatea de a comunica extern. Când aceste trei elemente converg într-un sistem AI, atacatorii pot păcăli agentul să acceseze informații sensibile și să le exfiltreze.
Cercetătorul în securitate Simon Willison, care a inventat termenul „prompt injection” în urmă cu câțiva ani, a subliniat importanța înțelegerii acestui tipar de vulnerabilitate. „Dacă agentul tău combină aceste trei caracteristici, un atacator îl poate păcăli cu ușurință să acceseze datele tale private și să le trimită atacatorului”, a remarcat Willison în analiza sa asupra cercetării Google.
Momentul acestei cercetări este deosebit de relevant, deoarece agenții AI devin tot mai autonomi și au acces la sisteme sensibile. Marile companii de tehnologie, inclusiv Microsoft, Google și Anthropic, s-au confruntat cu probleme similare de securitate în produsele lor AI în ultimii doi ani, cu zeci de atacuri de exfiltrare documentate care au afectat sisteme precum ChatGPT, Microsoft Copilot și Google Bard.
Cercetarea Google propune trei principii de bază pentru securitatea agenților: agenții trebuie să aibă controlori umani bine definiți, puterile lor trebuie limitate cu atenție, iar acțiunile și planificarea lor trebuie să fie observabile. Aceste linii directoare oferă un cadru valoros pentru dezvoltatori și organizații care implementează sisteme de agenți AI, pe măsură ce navighează peisajul complex al securității AI din ce în ce mai autonome.