menu
close

DeepSeek posilňuje AI spoločnosti Alibaba prostredníctvom znalostnej destilácie

Čínsky startup DeepSeek oznámil 29. mája 2025, že vylepšil základný model Qwen 3 8B od Alibaby pomocou procesu znalostnej destilácie s využitím svojho aktualizovaného modelu na uvažovanie R1-0528. Táto technika preniesla pokročilé schopnosti uvažovania DeepSeeku do modelu Alibaby, čo viedlo k zlepšeniu výkonu o viac ako 10 %. Spolupráca podčiarkuje rastúci vplyv DeepSeeku v sektore umelej inteligencie a jeho záväzok posúvať efektivitu modelov prostredníctvom inovatívnych optimalizačných prístupov.
DeepSeek posilňuje AI spoločnosti Alibaba prostredníctvom znalostnej destilácie

Čínsky startup DeepSeek naďalej narúša globálnu scénu umelej inteligencie svojou najnovšou inováciou v oblasti optimalizácie modelov. Spoločnosť 29. mája oznámila, že variant jej nedávno aktualizovaného modelu na uvažovanie R1-0528 bol použitý na vylepšenie základného modelu Qwen 3 8B od Alibaby prostredníctvom procesu známeho ako destilácia.

Technika destilácie, ktorá prenáša znalosti z vyspelejšieho modelu do menšieho, umožnila DeepSeeku odovzdať uvažovacie procesy svojho modelu R1-0528 do systému Alibaby. Podľa vyhlásenia DeepSeeku tento proces viedol k zlepšeniu výkonu modelu Qwen 3 o viac ako 10 %.

„Veríme, že chain-of-thought z DeepSeek-R1-0528 bude mať významný vplyv na akademický výskum aj praktické aplikácie,“ uviedol DeepSeek vo svojom oznámení. Spoločnosť už predtým uviedla niekoľko destilovaných modelov založených na architektúrach Qwen aj Meta Llama, s veľkosťami od 1,5 miliardy do 70 miliárd parametrov.

Prístup DeepSeeku k vývoju AI si získal pozornosť už v januári, keď jeho model R1 dosiahol výkonnosť porovnateľnú s ponukami od OpenAI a Google, a to pri zlomku výpočtových nákladov. Úspech spoločnosti spochybnil prevládajúcu predstavu, že špičková AI vyžaduje obrovské výpočtové zdroje a investície.

Napriek americkým exportným obmedzeniam na pokročilé AI čipy optimalizoval DeepSeek svoje modely tak, aby efektívne fungovali aj na menej výkonnom, exportom schválenom hardvéri. Táto stratégia prinútila konkurentov prehodnotiť svoju závislosť od hardvéru a ovplyvnila dynamiku trhu v AI sektore.

Najnovšia aktualizácia R1-0528 približuje model DeepSeek k výkonnosti modelov OpenAI o3 na uvažovanie a Google Gemini 2.5 Pro, pričom prináša výrazné zlepšenia v hĺbke uvažovania, schopnostiach inferencie a znižovaní halucinácií. Neustála inovácia spoločnosti a jej open-source prístup menia očakávania v oblasti vývoja a efektivity nasadzovania AI modelov.

Source:

Latest News