Китайський стартап DeepSeek продовжує змінювати глобальний ландшафт штучного інтелекту завдяки своїм останнім інноваціям в оптимізації моделей. 29 травня компанія повідомила, що варіант її нещодавно оновленої моделі міркування R1-0528 був використаний для покращення базової моделі Qwen 3 8B від Alibaba за допомогою процесу, відомого як дистиляція.
Техніка дистиляції, яка передає знання від більш складної моделі до меншої, дозволила DeepSeek інтегрувати процеси міркування з моделі R1-0528 у систему Alibaba. За заявою DeepSeek, цей процес забезпечив зростання продуктивності моделі Qwen 3 більш ніж на 10%.
«Ми вважаємо, що ланцюжок міркувань DeepSeek-R1-0528 матиме велике значення як для академічних досліджень, так і для практичних застосувань», — йдеться у повідомленні компанії. Раніше DeepSeek вже випускала кілька дистильованих моделей на основі архітектур Qwen і Llama від Meta, з розмірами від 1,5 до 70 мільярдів параметрів.
Підхід DeepSeek до розробки ШІ привернув значну увагу ще з січня, коли модель R1 продемонструвала продуктивність, порівняну з рішеннями від OpenAI та Google, але за значно менших обчислювальних витрат. Успіх компанії поставив під сумнів усталену думку про те, що передові ШІ потребують величезних обчислювальних ресурсів та інвестицій.
Попри експортні обмеження США на передові чипи для ШІ, DeepSeek оптимізувала свої моделі для ефективної роботи на менш потужному, дозволеному до експорту обладнанні. Така стратегія змусила конкурентів переглянути свою залежність від апаратного забезпечення та вплинула на динаміку ринку у сфері штучного інтелекту.
Останнє оновлення R1-0528 наближає модель DeepSeek до рівня продуктивності моделей міркування o3 від OpenAI та Gemini 2.5 Pro від Google, з істотними покращеннями у глибині міркувань, здатності до інференції та зниженні галюцинацій. Безперервні інновації компанії та відкритий підхід до розробки змінюють очікування щодо ефективності створення та впровадження моделей ШІ.