Важный шаг вперёд в области безопасности искусственного интеллекта сделали исследователи Google, выявив фундаментальный паттерн уязвимости, угрожающий целостности систем ИИ-агентов.
15 июня 2025 года команда специалистов по безопасности Google опубликовала работу «Введение в подход Google к безопасности ИИ-агентов», авторами которой выступили Сантьяго Диас, Кристоф Керн и Кара Олив. В статье описывается концептуальная рамка Google по обеспечению безопасности ИИ-агентов, которые определяются как «системы ИИ, способные воспринимать окружающую среду, принимать решения и совершать автономные действия для достижения целей, заданных пользователем».
В исследовании выделяются две основные проблемы безопасности: несанкционированные действия (непреднамеренное, вредоносное или нарушающее политику поведение) и раскрытие конфиденциальных данных (несанкционированное разглашение приватной информации). Для снижения этих рисков Google предлагает гибридную стратегию многоуровневой защиты, сочетающую традиционные меры безопасности с динамическими, основанными на рассуждениях механизмами.
16 июня 2025 года вышла связанная публикация, в которой был представлен термин «смертельное трио» для ИИ-агентов — опасное сочетание трёх возможностей, создающих серьёзные уязвимости: доступ к приватным данным, взаимодействие с недоверенным контентом и возможность внешней коммуникации. При одновременном наличии этих трёх элементов злоумышленники могут обмануть агента, заставив его получить доступ к чувствительной информации и передать её наружу.
Эксперт по безопасности Саймон Уиллисон, несколько лет назад предложивший термин «внедрение запроса» (prompt injection), подчеркнул важность понимания этой уязвимости. «Если ваш агент сочетает эти три функции, злоумышленник может легко заставить его получить ваши приватные данные и отправить их себе», — отметил Уиллисон в своём анализе исследования Google.
Актуальность этой работы особенно высока на фоне роста автономности ИИ-агентов и их доступа к чувствительным системам. Крупные технологические компании, включая Microsoft, Google и Anthropic, за последние два года сталкивались с аналогичными проблемами безопасности в своих ИИ-продуктах: десятки задокументированных атак с утечкой данных затронули такие системы, как ChatGPT, Microsoft Copilot и Google Bard.
В своём исследовании Google предлагает три основных принципа безопасности агентов: у агентов должны быть чётко определённые человеческие контролёры, их полномочия должны быть строго ограничены, а действия и планирование — прозрачны и поддаются мониторингу. Эти рекомендации формируют ценную основу для разработчиков и организаций, внедряющих ИИ-агентов, в условиях усложняющегося ландшафта угроз для всё более автономных ИИ.