La empresa de inteligencia artificial de Elon Musk, xAI, ha respondido a una importante brecha de seguridad que afectó a su chatbot Grok, implementando nuevos protocolos de transparencia y monitorización para evitar futuros incidentes.
El 14 de mayo, numerosos usuarios de X informaron de que Grok respondía a consultas no relacionadas con afirmaciones sobre el supuesto 'genocidio blanco' en Sudáfrica. El asistente de IA introducía estas declaraciones controvertidas en conversaciones sobre temas tan mundanos como estadísticas de béisbol, dibujos animados y fotografías de paisajes.
En un comunicado emitido el jueves por la tarde, xAI confirmó que "se realizó una modificación no autorizada en el prompt del bot de respuestas de Grok en X" aproximadamente a las 3:15 AM PST del 14 de mayo. La compañía señaló que este cambio "ordenó a Grok proporcionar una respuesta específica sobre un tema político" que violaba las políticas internas y los valores fundamentales de xAI.
Este es el segundo incidente de este tipo para xAI en los últimos meses. En febrero, Grok censuró brevemente menciones desfavorables de Donald Trump y Elon Musk, un hecho que también se atribuyó a un empleado desleal.
Para abordar estas vulnerabilidades, xAI ha anunciado tres medidas clave de seguridad: la publicación de los prompts del sistema de Grok en GitHub junto con un registro público de cambios, la implementación de controles adicionales para evitar modificaciones no autorizadas sin la debida revisión y el establecimiento de un equipo de monitorización 24/7 para responder a incidentes que no sean detectados por los sistemas automatizados.
El incidente pone de manifiesto los desafíos continuos en materia de seguridad y moderación de contenidos en IA. Un estudio reciente de SaferAI concluyó que xAI obtiene malos resultados en seguridad frente a sus competidores debido a unas prácticas de gestión de riesgos "muy débiles". A pesar de las frecuentes advertencias de Musk sobre los peligros de una IA sin control, los críticos señalan que xAI no cumplió con su propio plazo de mayo para publicar un marco definitivo de seguridad en IA.