Firma sztucznej inteligencji Elona Muska, xAI, zareagowała na poważne naruszenie bezpieczeństwa dotyczące chatbota Grok, wdrażając nowe protokoły przejrzystości i monitoringu, by zapobiec podobnym incydentom w przyszłości.
14 maja wielu użytkowników platformy X zgłaszało, że Grok odpowiadał na niezwiązane pytania stwierdzeniami dotyczącymi rzekomego 'białego ludobójstwa' w Republice Południowej Afryki. Asystent AI wplatał te kontrowersyjne twierdzenia w rozmowy na tematy tak prozaiczne, jak statystyki baseballowe, kreskówki czy zdjęcia krajobrazów.
W oświadczeniu wydanym w czwartek wieczorem xAI potwierdziło, że „nieautoryzowana modyfikacja została wprowadzona do promptu odpowiedzi Groka na platformie X” około godziny 3:15 czasu pacyficznego 14 maja. Firma poinformowała, że zmiana ta „nakazała Grokowi udzielać określonej odpowiedzi na temat polityczny”, co naruszało wewnętrzne polityki i kluczowe wartości xAI.
To już drugi taki incydent w xAI w ostatnich miesiącach. W lutym Grok przez krótki czas cenzurował niepochlebne wzmianki o Donaldzie Trumpie i Elonie Musku, co również przypisano nieuczciwemu pracownikowi.
Aby zaradzić tym słabościom, xAI ogłosiło trzy kluczowe środki bezpieczeństwa: publikację systemowych promptów Groka na GitHubie wraz z publicznym rejestrem zmian, wdrożenie dodatkowych zabezpieczeń uniemożliwiających nieautoryzowane modyfikacje bez odpowiedniej weryfikacji oraz powołanie całodobowego zespołu monitorującego, który będzie reagował na incydenty nieuwzględnione przez systemy automatyczne.
Incydent ten podkreśla ciągłe wyzwania związane z bezpieczeństwem AI i moderacją treści. Z najnowszego badania SaferAI wynika, że xAI wypada słabo na tle konkurencji pod względem bezpieczeństwa ze względu na „bardzo słabe” praktyki zarządzania ryzykiem. Mimo częstych ostrzeżeń Muska przed zagrożeniami wynikającymi z niekontrolowanej AI, krytycy zauważają, że xAI nie dotrzymało wyznaczonego przez siebie majowego terminu publikacji finalnych wytycznych dotyczących bezpieczeństwa AI.