Den kinesiske AI-startup DeepSeek fortsætter med at forandre det globale kunstig intelligens-landskab med sin seneste innovation inden for modeloptimering. Den 29. maj afslørede virksomheden, at en variant af den nyligt opdaterede R1-0528 reasoning-model blev brugt til at forbedre Alibabas Qwen 3 8B Base-model gennem en proces kendt som distillation.
Distillation-teknikken, som overfører viden fra en mere avanceret model til en mindre, gjorde det muligt for DeepSeek at overføre ræsonnementprocesserne fra sin R1-0528-model til Alibabas system. Ifølge DeepSeeks meddelelse resulterede denne proces i præstationsforbedringer på over 10% for Qwen 3-modellen.
"Vi mener, at chain-of-thought fra DeepSeek-R1-0528 vil få stor betydning både for akademisk forskning og praktiske anvendelser," udtalte DeepSeek i sin meddelelse. Virksomheden har tidligere udgivet flere distillerede modeller baseret på både Qwen- og Metas Llama-arkitekturer med størrelser fra 1,5B til 70B parametre.
DeepSeeks tilgang til AI-udvikling har tiltrukket betydelig opmærksomhed siden januar, hvor R1-modellen demonstrerede ydeevne på niveau med løsninger fra OpenAI og Google, men til en brøkdel af de beregningsmæssige omkostninger. Virksomhedens succes har udfordret den udbredte opfattelse af, at banebrydende AI kræver enorme computerressourcer og investeringer.
På trods af amerikanske eksportrestriktioner på avancerede AI-chips har DeepSeek optimeret sine modeller til at køre effektivt på mindre kraftfuldt, eksportgodkendt hardware. Denne strategi har tvunget konkurrenter til at genoverveje deres hardwareafhængighed og har påvirket markedsdynamikken i AI-sektoren.
Den seneste R1-0528-opdatering bringer DeepSeeks model tættere på ydeevneniveauet for OpenAIs o3 reasoning-modeller og Googles Gemini 2.5 Pro, med markante forbedringer i ræsonnementsdybde, inferensevner og reduktion af hallucinationer. Virksomhedens fortsatte innovation og open source-tilgang er med til at ændre forventningerne til udvikling og effektiv implementering af AI-modeller.