AI सुरक्षा के क्षेत्र में एक महत्वपूर्ण प्रगति के तहत, Google के शोधकर्ताओं ने एक मौलिक कमजोरी पैटर्न की पहचान की है, जो AI एजेंट सिस्टम्स की अखंडता के लिए खतरा बन सकता है।
15 जून 2025 को, Google की सुरक्षा टीम ने 'Google के दृष्टिकोण से AI एजेंट सुरक्षा का परिचय' शीर्षक से एक शोध पत्र प्रकाशित किया, जिसके लेखक सैंटियागो डियाज़, क्रिस्टोफ़ केर्न और कारा ऑलिव हैं। इस पत्र में Google ने AI एजेंट्स को सुरक्षित करने के लिए अपनी महत्वाकांक्षी रूपरेखा प्रस्तुत की है। वे AI एजेंट्स को ऐसे सिस्टम्स के रूप में परिभाषित करते हैं, जो अपने परिवेश को समझते हैं, निर्णय लेते हैं और उपयोगकर्ता द्वारा निर्धारित लक्ष्यों को प्राप्त करने के लिए स्वायत्त रूप से कार्य करते हैं।
शोध में दो प्रमुख सुरक्षा चिंताओं को रेखांकित किया गया है: दुष्ट कार्य (अनचाहे, हानिकारक या नीति-उल्लंघन करने वाले व्यवहार) और संवेदनशील डेटा का प्रकटीकरण (निजी जानकारी का अनधिकृत खुलासा)। इन जोखिमों से निपटने के लिए, Google पारंपरिक सुरक्षा नियंत्रणों के साथ-साथ डायनेमिक, तर्क-आधारित सुरक्षा उपायों को मिलाकर एक हाइब्रिड, डिफेंस-इन-डेप्थ रणनीति अपनाने की सलाह देता है।
इसके बाद 16 जून 2025 को एक संबंधित प्रकाशन में AI एजेंट्स के लिए 'घातक त्रय' (lethal trifecta) की अवधारणा प्रस्तुत की गई—तीन क्षमताओं का खतरनाक मेल, जो गंभीर सुरक्षा कमजोरियां उत्पन्न करता है: निजी डेटा तक पहुंच, अविश्वसनीय कंटेंट के संपर्क और बाहरी संचार की क्षमता। जब ये तीनों तत्व किसी AI सिस्टम में एक साथ मौजूद होते हैं, तो हमलावर एजेंट को संवेदनशील जानकारी तक पहुंचने और उसे बाहर भेजने के लिए बरगला सकते हैं।
सुरक्षा शोधकर्ता साइमन विलिसन, जिन्होंने कुछ वर्ष पहले 'प्रॉम्प्ट इंजेक्शन' शब्द गढ़ा था, ने इस कमजोरी पैटर्न को समझने के महत्व पर जोर दिया। उन्होंने Google के शोध के विश्लेषण में कहा, "यदि आपके एजेंट में ये तीनों विशेषताएँ हैं, तो कोई हमलावर आसानी से उसे आपके निजी डेटा तक पहुंचने और उसे अपने पास भेजने के लिए बरगला सकता है।"
यह शोध ऐसे समय में आया है जब AI एजेंट्स अधिक स्वायत्तता और संवेदनशील सिस्टम्स तक अधिक पहुंच प्राप्त कर रहे हैं। Microsoft, Google और Anthropic जैसी प्रमुख टेक कंपनियों को पिछले दो वर्षों में अपने AI उत्पादों में इसी तरह की सुरक्षा समस्याओं का सामना करना पड़ा है, जिसमें ChatGPT, Microsoft Copilot और Google Bard जैसे सिस्टम्स पर दर्जनों डेटा एक्सफिल्ट्रेशन हमले दर्ज किए गए हैं।
Google के शोध में एजेंट सुरक्षा के लिए तीन मुख्य सिद्धांत प्रस्तावित किए गए हैं: एजेंट्स के पास स्पष्ट रूप से परिभाषित मानव नियंत्रक होने चाहिए, उनकी शक्तियों को सावधानीपूर्वक सीमित किया जाना चाहिए, और उनके कार्यों व योजनाओं को देखे जाने योग्य होना चाहिए। ये दिशानिर्देश डेवलपर्स और संगठनों के लिए एक मूल्यवान रूपरेखा प्रस्तुत करते हैं, जो तेजी से स्वायत्त होते AI एजेंट सिस्टम्स की जटिल सुरक्षा चुनौतियों का सामना कर रहे हैं।