Het Chinese AI-startup DeepSeek blijft het wereldwijde landschap van kunstmatige intelligentie verstoren met zijn nieuwste innovatie op het gebied van modeloptimalisatie. Op 29 mei maakte het bedrijf bekend dat een variant van het recent geüpdatete R1-0528 redeneermodel is gebruikt om Alibaba's Qwen 3 8B Base-model te verbeteren via een proces dat bekendstaat als distillatie.
Met de distillatietechniek, waarbij kennis wordt overgedragen van een geavanceerder model naar een kleiner model, kon DeepSeek de redeneerprocessen van zijn R1-0528-model overbrengen naar Alibaba's systeem. Volgens DeepSeek heeft dit geleid tot prestatieverbeteringen van meer dan 10% voor het Qwen 3-model.
"Wij geloven dat de chain-of-thought van DeepSeek-R1-0528 van groot belang zal zijn voor zowel academisch onderzoek als praktische toepassingen," aldus DeepSeek in de aankondiging. Het bedrijf heeft eerder al diverse gedistilleerde modellen uitgebracht op basis van zowel Qwen- als Meta's Llama-architecturen, met groottes variërend van 1,5B tot 70B parameters.
DeepSeeks benadering van AI-ontwikkeling heeft sinds januari veel aandacht getrokken, toen het R1-model prestaties liet zien die vergelijkbaar zijn met die van OpenAI en Google, maar dan tegen een fractie van de gebruikelijke rekenkosten. Het succes van het bedrijf heeft de heersende opvatting uitgedaagd dat geavanceerde AI enorme rekenkracht en investeringen vereist.
Ondanks Amerikaanse exportbeperkingen op geavanceerde AI-chips heeft DeepSeek zijn modellen geoptimaliseerd om efficiënt te draaien op minder krachtige, export-goedgekeurde hardware. Deze strategie heeft concurrenten gedwongen hun afhankelijkheid van hardware te heroverwegen en heeft de marktdynamiek in de AI-sector beïnvloed.
De nieuwste R1-0528-update brengt DeepSeeks model dichter bij de prestaties van OpenAI's o3-redeneermodellen en Google's Gemini 2.5 Pro, met aanzienlijke verbeteringen in redeneerdiepte, inferentiecapaciteiten en het verminderen van hallucinaties. De voortdurende innovatie en open-sourcebenadering van het bedrijf veranderen de verwachtingen rondom de ontwikkeling en inzet van AI-modellen.