DeepSeek, kiinalainen tekoäly-startup, joka aiheutti teknologiayritysten osakkeiden laskun tammikuussa mullistavalla R1-mallillaan, on hiljaisesti julkaissut merkittävän päivityksen lippulaivatekoälyjärjestelmäänsä.
Uusi versio, nimeltään DeepSeek-R1-0528, julkaistiin 28. toukokuuta vähäeleisesti yrityksen WeChat-ryhmässä. Vaikka DeepSeek kuvailee päivitystä 'pieneksi kokeelliseksi päivitykseksi', varhaiset testit osoittavat huomattavia parannuksia useilla osa-alueilla.
LiveCodeBench-listauksen mukaan päivitetty malli sijoittuu nyt neljänneksi koodauskyvyissä Pass@1-tuloksella 73,1, jääden vain hieman OpenAI:n O3- ja O4-Mini-mallien taakse. Tämä on merkittävä harppaus avoimen lähdekoodin mallille, etenkin kun se on kehitetty huomattavasti pienemmillä resursseilla kuin länsimaiset kilpailijansa.
Tekniset tiedot osoittavat, että R1-0528 säilyttää edeltäjänsä Mixture-of-Experts (MoE) -arkkitehtuurin, jossa on yhteensä noin 685 miljardia parametria, joista vain noin 37 miljardia on aktiivisena inferenssin aikana. Malli tukee nyt laajennettua, jopa 128 000 tokenin kontekstia, mikä mahdollistaa huomattavasti suurempien dokumenttien ja koodipohjien käsittelyn.
Käyttäjäpalautteen mukaan päättelysyvyys, kirjoituslaatu ja ongelmanratkaisukyky ovat parantuneet. Kehittäjät raportoivat, että malli pystyy nyt käymään pitkiä, 30–60 minuutin päättelysessioita monimutkaisissa tehtävissä, vastaavasti kuin Googlen mallit. Päivitys korjaa myös aiempia tekstintuotannon erikoisuuksia, tuottaen luonnollisempaa ja paremmin muotoiltua sisältöä.
DeepSeekin jatkuva innovointi haastaa käsityksen siitä, että tekoälyn skaalaaminen vaatisi valtavia laskentaresursseja ja investointeja. Yrityksen menestys kustannustehokkailla, avoimen lähdekoodin malleilla on jo pakottanut teknologiayhtiöt reagoimaan: OpenAI on laskenut hintojaan ja Google on tuonut tarjolle alennettuja käyttöluokkia. Samaan aikaan kiinalaiset kilpailijat, kuten Alibaba ja Tencent, ovat julkaisseet omia mallejaan, joiden väitetään ylittävän DeepSeekin kyvykkyydet.
R1-0528-päivitys on saatavilla Hugging Facessa MIT-lisenssillä, mahdollistaen kaupallisen käytön ja muokkaukset. Alan tarkkailijat odottavat DeepSeekin julkaisevan laajemman R2-mallinsa tulevina kuukausina, mikä voi edelleen mullistaa tekoälykenttää.