DeepSeek підвищує ефективність ШІ Alibaba за допомогою дистиляції знань

Китайський стартап DeepSeek 29 травня 2025 року оголосив, що покращив базову модель Qwen 3 8B від Alibaba за допомогою процесу дистиляції знань із використанням оновленої моделі міркування R1-0528. Завдяки цій техніці дистиляції передові можливості міркування DeepSeek були передані моделі Alibaba, що призвело до зростання продуктивності більш ніж на 10%. Ця співпраця підкреслює зростаючий вплив DeepSeek у сфері штучного інтелекту та прагнення компанії підвищувати ефективність моделей через інноваційні підходи до оптимізації.

Китайський стартап DeepSeek продовжує змінювати глобальний ландшафт штучного інтелекту завдяки своїм останнім інноваціям в оптимізації моделей. 29 травня компанія повідомила, що варіант її нещодавно оновленої моделі міркування R1-0528 був використаний для покращення базової моделі Qwen 3 8B від Alibaba за допомогою процесу, відомого як дистиляція.

Техніка дистиляції, яка передає знання від більш складної моделі до меншої, дозволила DeepSeek інтегрувати процеси міркування з моделі R1-0528 у систему Alibaba. За заявою DeepSeek, цей процес забезпечив зростання продуктивності моделі Qwen 3 більш ніж на 10%.

«Ми вважаємо, що ланцюжок міркувань DeepSeek-R1-0528 матиме велике значення як для академічних досліджень, так і для практичних застосувань», — йдеться у повідомленні компанії. Раніше DeepSeek вже випускала кілька дистильованих моделей на основі архітектур Qwen і Llama від Meta, з розмірами від 1,5 до 70 мільярдів параметрів.

Підхід DeepSeek до розробки ШІ привернув значну увагу ще з січня, коли модель R1 продемонструвала продуктивність, порівняну з рішеннями від OpenAI та Google, але за значно менших обчислювальних витрат. Успіх компанії поставив під сумнів усталену думку про те, що передові ШІ потребують величезних обчислювальних ресурсів та інвестицій.

Попри експортні обмеження США на передові чипи для ШІ, DeepSeek оптимізувала свої моделі для ефективної роботи на менш потужному, дозволеному до експорту обладнанні. Така стратегія змусила конкурентів переглянути свою залежність від апаратного забезпечення та вплинула на динаміку ринку у сфері штучного інтелекту.

Останнє оновлення R1-0528 наближає модель DeepSeek до рівня продуктивності моделей міркування o3 від OpenAI та Gemini 2.5 Pro від Google, з істотними покращеннями у глибині міркувань, здатності до інференції та зниженні галюцинацій. Безперервні інновації компанії та відкритий підхід до розробки змінюють очікування щодо ефективності створення та впровадження моделей ШІ.

Source:

DeepSeek підвищує ефективність ШІ Alibaba за допомогою дистиляції знань

Latest News

DeepSeek оновлює модель ШІ R1, кидаючи виклик західним технологічним гігантам

Google Beam: Революційні 3D-відеодзвінки з’являться у 2025 році

Google презентувала Gemini 2.5 Deep Think на I/O 2025

AMD придбала Enosemi для розвитку кремнієвої фотоніки для ШІ

Воррен вимагає від Пентагону забезпечити конкуренцію в контрактах на ШІ на тлі зростаючого впливу Маска

Робот ATMO від Caltech трансформується в повітрі для безперервної роботи на землі

Google презентує Project Astra та AI Mode на I/O 2025

Системи штучного інтелекту перевершили людей у тестах на емоційний інтелект

Doubao AI від ByteDance тепер пропонує допомогу у режимі реального часу через відеозв’язок

OnePlus відмовляється від повзунка сповіщень на користь кнопки Plus Key з підтримкою ШІ

DeepSeek підвищує ефективність ШІ Alibaba за допомогою дистиляції знань

Related Articles

DeepSeek оновлює модель ШІ R1, кидаючи виклик західним технологічним гігантам

Google презентувала Gemini 2.5 Deep Think на I/O 2025

AMD придбала Enosemi для розвитку кремнієвої фотоніки для ШІ

Воррен вимагає від Пентагону забезпечити конкуренцію в контрактах на ШІ на тлі зростаючого впливу Маска

Google презентує Project Astra та AI Mode на I/O 2025

Latest News

DeepSeek оновлює модель ШІ R1, кидаючи виклик західним технологічним гігантам

Google Beam: Революційні 3D-відеодзвінки з’являться у 2025 році

Google презентувала Gemini 2.5 Deep Think на I/O 2025

AMD придбала Enosemi для розвитку кремнієвої фотоніки для ШІ

Воррен вимагає від Пентагону забезпечити конкуренцію в контрактах на ШІ на тлі зростаючого впливу Маска

Робот ATMO від Caltech трансформується в повітрі для безперервної роботи на землі

Google презентує Project Astra та AI Mode на I/O 2025

Системи штучного інтелекту перевершили людей у тестах на емоційний інтелект

Doubao AI від ByteDance тепер пропонує допомогу у режимі реального часу через відеозв’язок

OnePlus відмовляється від повзунка сповіщень на користь кнопки Plus Key з підтримкою ШІ