Num avanço significativo para a segurança da inteligência artificial, investigadores da Google identificaram um padrão fundamental de vulnerabilidade que ameaça a integridade dos sistemas de agentes de IA.
A 15 de junho de 2025, a equipa de segurança da Google publicou o artigo 'Uma Introdução à Abordagem da Google para a Segurança de Agentes de IA', da autoria de Santiago Díaz, Christoph Kern e Kara Olive. O documento descreve o quadro aspiracional da Google para proteger agentes de IA, definidos como 'sistemas de IA concebidos para percecionar o ambiente, tomar decisões e agir autonomamente para alcançar objetivos definidos pelo utilizador.'
A investigação destaca duas preocupações principais de segurança: ações descontroladas (comportamentos não intencionais, prejudiciais ou que violem políticas) e divulgação de dados sensíveis (revelação não autorizada de informação privada). Para mitigar estes riscos, a Google defende uma estratégia híbrida de defesa em profundidade, combinando controlos de segurança tradicionais com defesas dinâmicas baseadas em raciocínio.
No dia seguinte, a 16 de junho de 2025, foi publicada uma investigação complementar que introduziu o conceito da 'tríade letal' para agentes de IA — uma combinação perigosa de três capacidades que gera vulnerabilidades de segurança graves: acesso a dados privados, exposição a conteúdos não fidedignos e capacidade de comunicação externa. Quando estes três elementos convergem num sistema de IA, os atacantes podem potencialmente induzir o agente a aceder a informação sensível e a exfiltrá-la.
O investigador de segurança Simon Willison, que cunhou o termo 'injeção de prompts' há alguns anos, sublinhou a importância de compreender este padrão de vulnerabilidade. 'Se o seu agente combinar estas três funcionalidades, um atacante pode facilmente induzi-lo a aceder aos seus dados privados e enviá-los para o atacante', destacou Willison na sua análise à investigação da Google.
A pertinência desta investigação é especialmente relevante numa altura em que os agentes de IA ganham mais autonomia e acesso a sistemas sensíveis. Grandes empresas tecnológicas como a Microsoft, Google e Anthropic enfrentaram problemas de segurança semelhantes nos seus produtos de IA nos últimos dois anos, com dezenas de ataques de exfiltração documentados a afetar sistemas como o ChatGPT, Microsoft Copilot e Google Bard.
A investigação da Google propõe três princípios fundamentais para a segurança de agentes: os agentes devem ter controladores humanos claramente definidos, os seus poderes devem ser cuidadosamente limitados e as suas ações e planeamento devem ser observáveis. Estas orientações oferecem um quadro valioso para programadores e organizações que implementam sistemas de agentes de IA, à medida que navegam no complexo panorama de segurança da IA cada vez mais autónoma.