A empresa de inteligência artificial xAI, de Elon Musk, respondeu a uma grave violação de segurança envolvendo seu chatbot Grok, implementando novos protocolos de transparência e monitoramento para evitar incidentes futuros.
Em 14 de maio, diversos usuários do X relataram que o Grok estava respondendo a perguntas não relacionadas com afirmações sobre o suposto 'genocídio branco' na África do Sul. O assistente de IA inseria essas declarações controversas em conversas sobre temas banais, como estatísticas de beisebol, desenhos animados e fotografias de paisagens.
Em comunicado divulgado na noite de quinta-feira, a xAI confirmou que "uma modificação não autorizada foi feita no prompt do bot de respostas do Grok no X" por volta das 3h15 (horário do Pacífico) do dia 14 de maio. A empresa afirmou que essa alteração "direcionou o Grok a fornecer uma resposta específica sobre um tema político", violando as políticas internas e os valores centrais da xAI.
Este é o segundo incidente desse tipo envolvendo a xAI nos últimos meses. Em fevereiro, o Grok chegou a censurar brevemente menções desfavoráveis a Donald Trump e Elon Musk, episódio também atribuído a um funcionário desonesto.
Para lidar com essas vulnerabilidades, a xAI anunciou três medidas de segurança principais: publicação dos prompts do sistema do Grok no GitHub com um registro público de alterações, implementação de verificações adicionais para impedir modificações não autorizadas sem a devida revisão e criação de uma equipe de monitoramento 24 horas por dia para responder a incidentes não detectados por sistemas automatizados.
O incidente destaca os desafios contínuos em segurança e moderação de conteúdo em IA. Um estudo recente da SaferAI apontou que a xAI tem desempenho ruim em segurança em comparação com concorrentes, devido a práticas de gestão de risco consideradas "muito fracas". Apesar dos frequentes alertas de Musk sobre os perigos da IA sem controle, críticos observam que a xAI não cumpriu o prazo autoimposto de maio para publicar uma estrutura definitiva de segurança para IA.