In un importante passo avanti per la sicurezza dell’intelligenza artificiale, i ricercatori di Google hanno individuato un modello di vulnerabilità fondamentale che minaccia l’integrità dei sistemi basati su agenti AI.
Il 15 giugno 2025, il team di sicurezza di Google ha pubblicato 'Introduzione all’Approccio di Google alla Sicurezza degli Agenti AI', firmato da Santiago Díaz, Christoph Kern e Kara Olive. Il documento descrive il quadro di riferimento ambizioso di Google per la protezione degli agenti AI, definiti come 'sistemi di intelligenza artificiale progettati per percepire l’ambiente, prendere decisioni e compiere azioni autonome per raggiungere obiettivi definiti dall’utente.'
La ricerca evidenzia due principali preoccupazioni di sicurezza: azioni dannose o non intenzionali (comportamenti indesiderati o in violazione delle policy) e la divulgazione di dati sensibili (rivelazione non autorizzata di informazioni private). Per affrontare questi rischi, Google propone una strategia ibrida di difesa stratificata, che combina i controlli di sicurezza tradizionali con difese dinamiche basate sul ragionamento.
A questa pubblicazione ha fatto seguito, il 16 giugno 2025, un articolo correlato che introduce il concetto di 'trifecta letale' per gli agenti AI: una combinazione pericolosa di tre capacità che genera gravi vulnerabilità di sicurezza: accesso a dati privati, esposizione a contenuti non attendibili e possibilità di comunicare verso l’esterno. Quando questi tre elementi si combinano in un sistema AI, gli attaccanti possono potenzialmente indurre l’agente ad accedere a informazioni sensibili ed esfiltrarle.
Il ricercatore di sicurezza Simon Willison, che alcuni anni fa ha coniato il termine 'prompt injection', ha sottolineato l’importanza di comprendere questo modello di vulnerabilità. 'Se il vostro agente combina queste tre funzionalità, un attaccante può facilmente indurlo ad accedere ai vostri dati privati e inviarli all’attaccante stesso', ha osservato Willison nella sua analisi della ricerca di Google.
La tempistica di questa ricerca è particolarmente rilevante, poiché gli agenti AI stanno acquisendo sempre più autonomia e accesso a sistemi sensibili. Negli ultimi due anni, le principali aziende tecnologiche tra cui Microsoft, Google e Anthropic hanno tutte riscontrato problemi di sicurezza simili nei loro prodotti AI, con decine di attacchi di esfiltrazione documentati che hanno coinvolto sistemi come ChatGPT, Microsoft Copilot e Google Bard.
La ricerca di Google propone tre principi fondamentali per la sicurezza degli agenti: gli agenti devono avere controllori umani ben definiti, i loro poteri devono essere attentamente limitati e le loro azioni e pianificazioni devono essere osservabili. Queste linee guida offrono un quadro di riferimento prezioso per sviluppatori e organizzazioni che implementano sistemi basati su agenti AI, mentre affrontano il complesso panorama della sicurezza di intelligenze artificiali sempre più autonome.