Китайский стартап DeepSeek продолжает менять глобальный ландшафт искусственного интеллекта благодаря своим последним инновациям в области оптимизации моделей. 29 мая компания сообщила, что вариант её недавно обновлённой модели рассуждений R1-0528 был использован для улучшения базовой модели Alibaba Qwen 3 8B посредством процесса, известного как дистилляция.
Техника дистилляции, позволяющая передавать знания от более сложной модели к меньшей, дала DeepSeek возможность внедрить процессы рассуждения своей модели R1-0528 в систему Alibaba. По заявлению DeepSeek, этот процесс обеспечил прирост производительности модели Qwen 3 более чем на 10%.
«Мы считаем, что цепочка рассуждений DeepSeek-R1-0528 будет иметь большое значение как для академических исследований, так и для практических приложений», — говорится в заявлении компании. Ранее DeepSeek уже выпускала несколько дистиллированных моделей на базе архитектур Qwen и Llama от Meta, с размером от 1,5 до 70 миллиардов параметров.
Подход DeepSeek к разработке ИИ привлёк значительное внимание с января, когда её модель R1 продемонстрировала производительность, сопоставимую с решениями OpenAI и Google, при значительно меньших вычислительных затратах. Успех компании поставил под сомнение устоявшееся мнение о том, что передовой ИИ требует огромных вычислительных ресурсов и инвестиций.
Несмотря на ограничения США на экспорт передовых ИИ-чипов, DeepSeek оптимизировала свои модели для эффективной работы на менее мощном, разрешённом к экспорту оборудовании. Эта стратегия заставила конкурентов пересмотреть свою зависимость от аппаратного обеспечения и повлияла на динамику рынка в секторе искусственного интеллекта.
Последнее обновление R1-0528 приблизило модель DeepSeek к производительности моделей рассуждений OpenAI o3 и Google Gemini 2.5 Pro, обеспечив значительный прогресс в глубине рассуждений, возможностях вывода и снижении галлюцинаций. Постоянные инновации компании и её открытый подход меняют ожидания от разработки и внедрения ИИ-моделей.