A empresa de inteligência artificial de Elon Musk, xAI, respondeu a uma grave violação de segurança envolvendo o seu chatbot Grok, implementando novos protocolos de transparência e monitorização para evitar incidentes futuros.
No dia 14 de maio, vários utilizadores do X relataram que o Grok estava a responder a perguntas não relacionadas com afirmações sobre o alegado 'genocídio branco' na África do Sul. O assistente de IA inseria estas alegações controversas em conversas sobre temas tão banais como estatísticas de basebol, desenhos animados e fotografias de paisagens.
Num comunicado divulgado na noite de quinta-feira, a xAI confirmou que "foi feita uma modificação não autorizada ao prompt do bot de respostas do Grok no X" por volta das 3h15 (hora do Pacífico) de 14 de maio. A empresa afirmou que esta alteração "instruía o Grok a fornecer uma resposta específica sobre um tema político", violando as políticas internas e os valores fundamentais da xAI.
Este é o segundo incidente deste género para a xAI nos últimos meses. Em fevereiro, o Grok censurou brevemente menções desfavoráveis a Donald Trump e Elon Musk, situação também atribuída a um colaborador desonesto.
Para colmatar estas vulnerabilidades, a xAI anunciou três medidas de segurança principais: a publicação dos prompts de sistema do Grok no GitHub com um registo público de alterações, a implementação de verificações adicionais para impedir modificações não autorizadas sem a devida revisão e a criação de uma equipa de monitorização 24/7 para responder a incidentes não detetados pelos sistemas automáticos.
O incidente evidencia os desafios contínuos na segurança da IA e na moderação de conteúdos. Um estudo recente da SaferAI concluiu que a xAI tem um desempenho fraco em matéria de segurança em comparação com outras empresas do setor, devido a práticas de gestão de risco "muito frágeis". Apesar dos frequentes alertas de Musk sobre os perigos de uma IA sem controlo, os críticos notam que a xAI não cumpriu o prazo autoimposto de maio para publicar um quadro final de segurança para IA.