Det kinesiska AI-bolaget DeepSeek fortsätter att utmana det globala AI-landskapet med sin senaste innovation inom modelloptimering. Den 29 maj avslöjade företaget att en variant av dess nyligen uppdaterade R1-0528-resoneringsmodell använts för att förbättra Alibabas Qwen 3 8B Base-modell genom en process som kallas destillering.
Destilleringstekniken, som överför kunskap från en mer avancerad modell till en mindre, gjorde det möjligt för DeepSeek att implementera resonemangsprocesserna från R1-0528-modellen i Alibabas system. Enligt DeepSeeks tillkännagivande resulterade processen i prestandaförbättringar på över 10 % för Qwen 3-modellen.
"Vi tror att kedjan av resonemang från DeepSeek-R1-0528 kommer att få stor betydelse både för akademisk forskning och praktiska tillämpningar," uppgav DeepSeek i sitt tillkännagivande. Företaget har tidigare släppt flera destillerade modeller baserade på både Qwen- och Metas Llama-arkitekturer, med storlekar från 1,5B till 70B parametrar.
DeepSeeks tillvägagångssätt för AI-utveckling har väckt stor uppmärksamhet sedan januari, då R1-modellen visade prestanda i nivå med OpenAI:s och Googles erbjudanden – till en bråkdel av beräkningskostnaden. Företagets framgång har utmanat den rådande uppfattningen att banbrytande AI kräver enorma beräkningsresurser och investeringar.
Trots amerikanska exportrestriktioner på avancerade AI-chip har DeepSeek optimerat sina modeller för att köra effektivt på strömsnål, exportgodkänd hårdvara. Denna strategi har tvingat konkurrenter att omvärdera sitt beroende av hårdvara och påverkat marknadsdynamiken inom AI-sektorn.
Den senaste R1-0528-uppdateringen för DeepSeeks modell närmare prestandan hos OpenAI:s o3-resoneringsmodeller och Googles Gemini 2.5 Pro, med betydande förbättringar i resonemangsdjup, slutledningsförmåga och minskad hallucination. Företagets fortsatta innovation och öppen källkods-strategi omformar förväntningarna på utveckling och effektiv driftsättning av AI-modeller.