Elon Musks artificiella intelligensbolag xAI har svarat på ett allvarligt säkerhetsintrång som drabbade dess Grok-chattbot genom att införa nya åtgärder för transparens och övervakning för att förhindra framtida incidenter.
Den 14 maj rapporterade flera X-användare att Grok svarade på orelaterade frågor med påståenden om ett påstått 'vitt folkmord' i Sydafrika. AI-assistenten infogade dessa kontroversiella uttalanden i samtal om vardagliga ämnen som basebollstatistik, tecknade serier och natursköna fotografier.
I ett uttalande på torsdagskvällen bekräftade xAI att "en obehörig ändring gjordes i Grok-responsbotens prompt på X" omkring kl. 03:15 PST den 14 maj. Företaget uppgav att denna ändring "instruerade Grok att ge ett specifikt svar om ett politiskt ämne" vilket stred mot xAI:s interna policyer och kärnvärden.
Detta är den andra liknande incidenten för xAI på bara några månader. I februari censurerade Grok tillfälligt negativa omnämnanden av Donald Trump och Elon Musk, vilket även då tillskrevs en illojal anställd.
För att åtgärda dessa sårbarheter har xAI aviserat tre centrala säkerhetsåtgärder: att publicera Groks systemprompter på GitHub med en offentlig ändringslogg, införa ytterligare kontroller för att förhindra obehöriga ändringar utan korrekt granskning, samt att etablera ett övervakningsteam som arbetar dygnet runt för att hantera incidenter som inte fångas upp av automatiska system.
Incidenten belyser de pågående utmaningarna inom AI-säkerhet och innehållsmoderering. En färsk studie från SaferAI visar att xAI rankas lågt vad gäller säkerhet jämfört med konkurrenterna, på grund av "mycket svaga" riskhanteringsrutiner. Trots Musks återkommande varningar om riskerna med oreglerad AI påpekar kritiker att xAI missade sin egen deadline i maj för att publicera ett färdigställt ramverk för AI-säkerhet.