menu
close

DeepSeek verbetert R1 AI-model en daagt westerse techgiganten uit

Het Chinese AI-startup DeepSeek heeft een update uitgebracht voor zijn R1-reasoningmodel, dat het bedrijf eerder dit jaar wereldwijde bekendheid gaf. De R1-0528-update wordt door het bedrijf als 'klein' bestempeld, maar laat aanzienlijke verbeteringen zien op het gebied van programmeercapaciteiten, redeneervermogen en schrijftaken. Het vernieuwde model blijft trouw aan DeepSeeks kostenefficiënte aanpak van AI-ontwikkeling en kan zich qua prestaties meten met modellen van OpenAI en Google.
DeepSeek verbetert R1 AI-model en daagt westerse techgiganten uit

DeepSeek, de Chinese startup op het gebied van kunstmatige intelligentie die in januari de techbeurzen deed schudden met zijn baanbrekende R1-model, heeft stilletjes een belangrijke update voor zijn vlaggenschip-AI-systeem uitgebracht.

De nieuwe versie, DeepSeek-R1-0528 genaamd, werd op 28 mei gelanceerd via een korte aankondiging in de WeChat-groep van het bedrijf. Ondanks dat DeepSeek spreekt van een 'kleine proefupgrade', tonen vroege tests aanzienlijke verbeteringen op meerdere vlakken.

Volgens het LiveCodeBench-klassement staat het vernieuwde model nu op de vierde plaats qua programmeercapaciteiten met een Pass@1-score van 73,1, direct achter de O3- en O4-Mini-modellen van OpenAI. Dit is een grote sprong voorwaarts voor een open-sourcemodel, zeker gezien het feit dat het met aanzienlijk minder middelen is ontwikkeld dan zijn westerse tegenhangers.

Uit de technische specificaties blijkt dat de R1-0528 de Mixture-of-Experts (MoE)-architectuur van zijn voorganger behoudt, met in totaal ongeveer 685 miljard parameters, waarvan er slechts circa 37 miljard actief zijn tijdens het uitvoeren van opdrachten. Het model ondersteunt nu een uitgebreidere context van maximaal 128.000 tokens, waardoor het veel grotere documenten en codebases kan verwerken.

Gebruikersfeedback wijst op verbeteringen in redeneervermogen, schrijfkwaliteit en probleemoplossend vermogen. Ontwikkelaars melden dat het model nu langere redeneersessies van 30 tot 60 minuten aankan voor complexe taken, vergelijkbaar met de modellen van Google. Ook zijn eerdere eigenaardigheden in tekstgeneratie aangepakt, waardoor de output natuurlijker en beter opgemaakt is.

De voortdurende innovatie van DeepSeek stelt de opvatting ter discussie dat het opschalen van AI enorme rekenkracht en investeringen vereist. Het succes van het bedrijf met kostenefficiënte, open-sourcemodellen heeft al geleid tot reacties van techgiganten: zo verlaagde OpenAI zijn prijzen en introduceerde Google goedkopere toegangsniveaus. Ondertussen hebben Chinese concurrenten als Alibaba en Tencent eigen modellen uitgebracht die beweren DeepSeeks prestaties te overtreffen.

De R1-0528-update is beschikbaar op Hugging Face onder een MIT-licentie, wat commercieel gebruik en aanpassingen toestaat. Branchewatchers verwachten dat DeepSeek de komende maanden zijn meer uitgebreide R2-model zal uitbrengen, wat mogelijk opnieuw voor opschudding in het AI-landschap zal zorgen.

Source:

Latest News