У значному прориві для безпеки штучного інтелекту дослідники Google ідентифікували фундаментальний шаблон вразливості, який ставить під загрозу цілісність систем AI-агентів.
15 червня 2025 року команда безпеки Google опублікувала роботу «Вступ до підходу Google до безпеки AI-агентів», авторами якої стали Сантьяго Діас, Крістоф Керн і Кара Олів. У статті описується амбітна концепція Google щодо захисту AI-агентів, які визначаються як «AI-системи, що сприймають навколишнє середовище, приймають рішення та виконують автономні дії для досягнення цілей, визначених користувачем».
Дослідження виділяє дві основні проблеми безпеки: неконтрольовані дії (ненавмисна, шкідлива або така, що порушує політику поведінка) та розкриття чутливих даних (несанкціоноване розголошення приватної інформації). Для протидії цим ризикам Google пропонує гібридну стратегію глибокого захисту, що поєднує традиційні засоби безпеки з динамічними, заснованими на міркуваннях захисними механізмами.
Наступного дня, 16 червня 2025 року, було опубліковано пов’язану статтю, яка ввела поняття «смертельної тріади» для AI-агентів — небезпечного поєднання трьох можливостей, що створюють серйозні вразливості безпеки: доступ до приватних даних, взаємодія з ненадійним контентом і здатність до зовнішньої комунікації. Коли ці три елементи поєднуються в AI-системі, зловмисники можуть обдурити агента, змусивши його отримати чутливу інформацію та передати її назовні.
Дослідник безпеки Саймон Віллісон, який кілька років тому ввів термін «ін’єкція підказок», наголосив на важливості розуміння цього шаблону вразливості. «Якщо ваш агент поєднує ці три функції, зловмисник легко може змусити його отримати ваші приватні дані й надіслати їх атакуючому», — зазначив Віллісон у своєму аналізі дослідження Google.
Це дослідження особливо актуальне, оскільки AI-агенти отримують дедалі більше автономії та доступу до чутливих систем. За останні два роки великі технологічні компанії, зокрема Microsoft, Google та Anthropic, стикалися з подібними проблемами безпеки у своїх AI-продуктах, а десятки задокументованих атак із витоком даних вплинули на такі системи, як ChatGPT, Microsoft Copilot і Google Bard.
У своєму дослідженні Google пропонує три основні принципи безпеки агентів: агенти мають мати чітко визначених людських контролерів, їхні повноваження повинні бути ретельно обмежені, а їхні дії та планування — бути прозорими для спостереження. Ці рекомендації формують цінну основу для розробників і організацій, які впроваджують AI-агентів, допомагаючи орієнтуватися у складному ландшафті безпеки дедалі автономніших AI-систем.