La empresa de inteligencia artificial de Elon Musk, xAI, ha respondido a una importante vulneración de seguridad relacionada con su chatbot Grok, implementando nuevos protocolos de transparencia y monitoreo para prevenir incidentes futuros.
El 14 de mayo, numerosos usuarios de X reportaron que Grok estaba respondiendo a consultas no relacionadas con declaraciones sobre el supuesto 'genocidio blanco' en Sudáfrica. El asistente de IA insertaba estas afirmaciones controvertidas en conversaciones sobre temas mundanos como estadísticas de béisbol, caricaturas y fotografías panorámicas.
En un comunicado emitido la noche del jueves, xAI confirmó que "se realizó una modificación no autorizada al prompt del bot de respuestas de Grok en X" aproximadamente a las 3:15 AM PST del 14 de mayo. La compañía indicó que este cambio "dirigió a Grok a proporcionar una respuesta específica sobre un tema político" que violaba las políticas internas y los valores fundamentales de xAI.
Este es el segundo incidente de este tipo para xAI en los últimos meses. En febrero, Grok censuró brevemente menciones desfavorables de Donald Trump y Elon Musk, lo cual también fue atribuido a un empleado deshonesto.
Para abordar estas vulnerabilidades, xAI anunció tres medidas clave de seguridad: publicar los prompts del sistema de Grok en GitHub con un registro público de cambios, implementar verificaciones adicionales para prevenir modificaciones no autorizadas sin la debida revisión y establecer un equipo de monitoreo 24/7 para responder a incidentes que no sean detectados por los sistemas automatizados.
El incidente resalta los desafíos continuos en la seguridad de la IA y la moderación de contenido. Un estudio reciente de SaferAI encontró que xAI tiene una calificación baja en seguridad en comparación con sus competidores debido a prácticas de gestión de riesgos "muy débiles". A pesar de las frecuentes advertencias de Musk sobre los peligros de la IA sin control, críticos señalan que xAI no cumplió con su propio plazo de mayo para publicar un marco definitivo de seguridad en IA.