En un avance significativo para la seguridad de la inteligencia artificial, investigadores de Google han identificado un patrón fundamental de vulnerabilidad que amenaza la integridad de los sistemas de agentes de IA.
El 15 de junio de 2025, el equipo de seguridad de Google publicó 'Una introducción al enfoque de Google para la seguridad de los agentes de IA', escrito por Santiago Díaz, Christoph Kern y Kara Olive. El artículo describe el marco aspiracional de Google para proteger a los agentes de IA, definidos como 'sistemas de IA diseñados para percibir su entorno, tomar decisiones y realizar acciones autónomas para alcanzar objetivos definidos por el usuario'.
La investigación destaca dos preocupaciones principales de seguridad: acciones descontroladas (comportamientos no intencionados, dañinos o que violan políticas) y divulgación de datos sensibles (revelación no autorizada de información privada). Para abordar estos riesgos, Google aboga por una estrategia híbrida y de defensa en profundidad que combine controles de seguridad tradicionales con defensas dinámicas basadas en razonamiento.
A esto le siguió una publicación relacionada el 16 de junio de 2025, que introdujo el concepto de la 'tríada letal' para agentes de IA: una combinación peligrosa de tres capacidades que generan graves vulnerabilidades de seguridad: acceso a datos privados, exposición a contenido no confiable y capacidad de comunicación externa. Cuando estos tres elementos convergen en un sistema de IA, los atacantes pueden engañar al agente para que acceda a información sensible y la exfiltre.
El investigador de seguridad Simon Willison, quien acuñó el término 'inyección de instrucciones' hace algunos años, enfatizó la importancia de comprender este patrón de vulnerabilidad. 'Si tu agente combina estas tres características, un atacante puede engañarlo fácilmente para que acceda a tus datos privados y los envíe al atacante', señaló Willison en su análisis sobre la investigación de Google.
El momento de esta investigación es especialmente relevante, ya que los agentes de IA adquieren mayor autonomía y acceso a sistemas sensibles. Grandes empresas tecnológicas como Microsoft, Google y Anthropic han experimentado problemas de seguridad similares en sus productos de IA durante los últimos dos años, con decenas de ataques de exfiltración documentados que han afectado a sistemas como ChatGPT, Microsoft Copilot y Google Bard.
La investigación de Google propone tres principios fundamentales para la seguridad de los agentes: los agentes deben tener controladores humanos bien definidos, sus capacidades deben estar cuidadosamente limitadas y sus acciones y planes deben ser observables. Estas directrices ofrecen un valioso marco para desarrolladores y organizaciones que implementan sistemas de agentes de IA, mientras navegan el complejo panorama de seguridad de una IA cada vez más autónoma.