Kiinalainen tekoäly-startup DeepSeek jatkaa kansainvälisen tekoälykentän haastamista uusimmalla innovaatiollaan mallien optimoinnissa. Yritys kertoi 29. toukokuuta, että sen päivitetyn R1-0528-päättelymallin varianttia käytettiin Alibaban Qwen 3 8B Base -mallin tehostamiseen niin sanotun tiedonsiirron (distillation) avulla.
Tiedonsiirtotekniikassa siirretään tietoa kehittyneemmästä mallista pienempään, jolloin DeepSeek pystyi siirtämään R1-0528-mallinsa päättelyprosessit Alibaban järjestelmään. DeepSeekin mukaan tämä johti yli 10 prosentin suorituskykyparannuksiin Qwen 3 -mallissa.
"Uskomme, että DeepSeek-R1-0528:n ketjumainen päättely tulee olemaan merkittävä sekä akateemisessa tutkimuksessa että käytännön sovelluksissa", yritys totesi tiedotteessaan. DeepSeek on aiemmin julkaissut useita tiedonsiirtoon perustuvia malleja sekä Qwen- että Metan Llama-arkkitehtuureihin, kokoluokissa 1,5 miljardista 70 miljardiin parametriin.
DeepSeekin lähestymistapa tekoälyn kehitykseen on herättänyt laajaa huomiota tammikuusta lähtien, jolloin sen R1-malli osoitti suorituskykyä, joka vastasi OpenAI:n ja Googlen tarjontaa murto-osalla laskentakustannuksista. Yrityksen menestys on haastanut käsityksen siitä, että huipputason tekoäly vaatii valtavia laskentaresursseja ja investointeja.
Vaikka DeepSeek on kohdannut Yhdysvaltojen vientirajoituksia kehittyneille tekoälypiireille, se on optimoinut mallinsa toimimaan tehokkaasti pienitehoisella, vientihyväksytyllä laitteistolla. Tämä strategia on pakottanut kilpailijat arvioimaan uudelleen laiteriippuvuuttaan ja vaikuttanut tekoälyalan markkinadynamiikkaan.
Uusin R1-0528-päivitys tuo DeepSeekin mallin lähemmäs OpenAI:n o3-päättelymallien ja Googlen Gemini 2.5 Pro:n suorituskykyä, erityisesti päättelysyvyyden, johtopäätösten ja hallusinaatioiden vähentämisen osalta. Yrityksen jatkuva innovointi ja avoimen lähdekoodin strategia muovaavat uudelleen odotuksia tekoälymallien kehityksestä ja käyttöönoton tehokkuudesta.