menu
close

Pinalakas ng DeepSeek ang AI ng Alibaba sa Pamamagitan ng Knowledge Distillation

Inanunsyo ng Chinese AI startup na DeepSeek noong Mayo 29, 2025, na kanilang pinahusay ang Qwen 3 8B Base model ng Alibaba gamit ang proseso ng knowledge distillation mula sa kanilang updated na R1-0528 reasoning model. Sa pamamagitan ng distillation technique, nailipat ng DeepSeek ang kanilang advanced na kakayahan sa pag-rereason sa modelo ng Alibaba, na nagresulta sa higit 10% na pagtaas ng performance. Itinatampok ng kolaborasyong ito ang lumalaking impluwensya ng DeepSeek sa sektor ng AI at ang dedikasyon nito sa pagpapabuti ng kahusayan ng mga modelo gamit ang makabagong paraan ng optimisasyon.
Pinalakas ng DeepSeek ang AI ng Alibaba sa Pamamagitan ng Knowledge Distillation

Patuloy na ginugulo ng Chinese AI startup na DeepSeek ang pandaigdigang larangan ng artificial intelligence sa kanilang pinakabagong inobasyon sa pag-optimize ng mga modelo. Noong Mayo 29, inanunsyo ng kumpanya na isang variant ng kanilang bagong in-update na R1-0528 reasoning model ang ginamit upang mapahusay ang Qwen 3 8B Base model ng Alibaba sa pamamagitan ng prosesong tinatawag na distillation.

Ang distillation technique, na naglilipat ng kaalaman mula sa isang mas sopistikadong modelo papunta sa mas maliit na modelo, ay nagbigay-daan sa DeepSeek na maipasa ang mga proseso ng pag-rereason mula sa kanilang R1-0528 model papunta sa sistema ng Alibaba. Ayon sa anunsyo ng DeepSeek, nagresulta ito sa higit 10% na pagbuti ng performance para sa Qwen 3 model.

"Naniniwala kami na ang chain-of-thought mula sa DeepSeek-R1-0528 ay magkakaroon ng malaking kahalagahan para sa parehong pananaliksik at praktikal na aplikasyon," pahayag ng DeepSeek. Nauna nang naglabas ang kumpanya ng ilang distilled models batay sa Qwen at Meta's Llama architectures, na may sukat mula 1.5B hanggang 70B na parameters.

Ang pamamaraan ng DeepSeek sa pag-develop ng AI ay nakakuha ng malaking atensyon simula pa noong Enero nang ipakita ng kanilang R1 model ang performance na maihahambing sa mga produkto ng OpenAI at Google ngunit sa mas mababang gastos sa computing. Hinamon ng tagumpay ng kumpanya ang paniniwala na ang pinakabagong AI ay nangangailangan ng napakalaking computing resources at investment.

Sa kabila ng mga restriksyon ng U.S. sa pag-export ng advanced AI chips, na-optimize ng DeepSeek ang kanilang mga modelo upang gumana nang mahusay kahit sa mas mababang power at export-approved na hardware. Ang estratehiyang ito ay nagtulak sa mga kakumpitensya na muling pag-isipan ang kanilang hardware dependencies at nakaapekto sa dinamika ng merkado sa AI sector.

Ang pinakabagong update ng R1-0528 ay naglapit sa modelo ng DeepSeek sa performance ng OpenAI's o3 reasoning models at Google's Gemini 2.5 Pro, na may malalaking pagbuti sa lalim ng reasoning, inference capabilities, at pagbawas ng hallucination. Ang patuloy na inobasyon at open-source na approach ng kumpanya ay muling humuhubog sa mga inaasahan para sa pag-develop at deployment ng mga AI model.

Source:

Latest News