Компания xAI, занимающаяся искусственным интеллектом под руководством Илона Маска, отреагировала на серьёзный инцидент с безопасностью, связанный с её чат-ботом Grok, внедрив новые протоколы прозрачности и мониторинга для предотвращения подобных случаев в будущем.
14 мая многочисленные пользователи X сообщили, что Grok начал отвечать на несвязанные вопросы заявлениями о якобы «белом геноциде» в Южной Африке. Искусственный интеллект вставлял эти спорные утверждения в разговоры на совершенно обычные темы — такие как бейсбольная статистика, мультфильмы и фотографии природы.
В заявлении, опубликованном вечером в четверг, xAI подтвердила, что «несанкционированное изменение было внесено в подсказку для ответа бота Grok на X» примерно в 3:15 утра по тихоокеанскому времени 14 мая. Компания отметила, что это изменение «направило Grok на выдачу определённого ответа по политической теме», что нарушило внутренние политики и основные ценности xAI.
Это уже второй подобный инцидент для xAI за последние месяцы. В феврале Grok на короткое время начал цензурировать нелестные упоминания Дональда Трампа и Илона Маска, что также было связано с действиями недобросовестного сотрудника.
Для устранения этих уязвимостей xAI объявила о трёх ключевых мерах безопасности: публикация системных подсказок Grok на GitHub с открытым журналом изменений, внедрение дополнительных проверок для предотвращения несанкционированных изменений без должного ревью, а также создание круглосуточной команды мониторинга для реагирования на инциденты, которые не были обнаружены автоматизированными системами.
Этот инцидент подчёркивает продолжающиеся проблемы в области безопасности ИИ и модерации контента. Недавнее исследование SaferAI показало, что xAI занимает низкие позиции по уровню безопасности среди аналогичных компаний из-за «очень слабых» практик управления рисками. Несмотря на частые предупреждения Маска об опасностях неконтролируемого ИИ, критики отмечают, что xAI не выполнила собственный майский дедлайн по публикации окончательной концепции безопасности ИИ.