En un avance significativo para la seguridad de la inteligencia artificial, investigadores de Google han identificado un patrón de vulnerabilidad fundamental que pone en riesgo la integridad de los sistemas de agentes de IA.
El 15 de junio de 2025, el equipo de seguridad de Google publicó 'Una introducción al enfoque de Google sobre la seguridad de los agentes de IA', firmado por Santiago Díaz, Christoph Kern y Kara Olive. El artículo describe el marco aspiracional de Google para proteger los agentes de IA, definidos como 'sistemas de IA diseñados para percibir su entorno, tomar decisiones y realizar acciones autónomas para alcanzar objetivos definidos por el usuario'.
La investigación destaca dos preocupaciones principales de seguridad: acciones descontroladas (comportamientos no intencionados, dañinos o que violan políticas) y la divulgación de datos sensibles (revelación no autorizada de información privada). Para abordar estos riesgos, Google aboga por una estrategia híbrida y de defensa en profundidad que combine controles de seguridad tradicionales con defensas dinámicas basadas en el razonamiento.
A esto le siguió una publicación relacionada el 16 de junio de 2025, que introdujo el concepto de la 'tríada letal' para los agentes de IA: una combinación peligrosa de tres capacidades que genera graves vulnerabilidades de seguridad: acceso a datos privados, exposición a contenido no fiable y capacidad de comunicación externa. Cuando estos tres elementos coinciden en un sistema de IA, los atacantes pueden engañar al agente para que acceda a información sensible y la exfiltre.
El investigador de seguridad Simon Willison, quien acuñó el término 'inyección de instrucciones' hace varios años, subrayó la importancia de comprender este patrón de vulnerabilidad. 'Si tu agente combina estas tres características, un atacante puede engañarlo fácilmente para que acceda a tus datos privados y se los envíe', señaló Willison en su análisis sobre la investigación de Google.
El momento de esta investigación es especialmente relevante, ya que los agentes de IA adquieren cada vez más autonomía y acceso a sistemas sensibles. Grandes empresas tecnológicas como Microsoft, Google y Anthropic han experimentado problemas de seguridad similares en sus productos de IA en los últimos dos años, con decenas de ataques documentados de exfiltración que han afectado a sistemas como ChatGPT, Microsoft Copilot y Google Bard.
La investigación de Google propone tres principios fundamentales para la seguridad de los agentes: los agentes deben tener controladores humanos claramente definidos, sus capacidades deben estar cuidadosamente limitadas y sus acciones y planificación deben ser observables. Estas directrices ofrecen un marco valioso para desarrolladores y organizaciones que implementan sistemas de agentes de IA, mientras navegan por el complejo panorama de seguridad de una IA cada vez más autónoma.