DeepSeek, kineski startup za umjetnu inteligenciju koji je u siječnju uzdrmao tehnološke dionice svojim revolucionarnim R1 modelom, tiho je predstavio značajnu nadogradnju svog vodećeg AI sustava.
Nova verzija, nazvana DeepSeek-R1-0528, objavljena je 28. svibnja uz malo pompe putem kratke najave u WeChat grupi tvrtke. Iako DeepSeek ovu nadogradnju opisuje kao "manje probno ažuriranje", rana testiranja otkrivaju znatna poboljšanja u više područja.
Prema LiveCodeBench ljestvici, ažurirani model sada zauzima četvrto mjesto po sposobnostima kodiranja s Pass@1 rezultatom od 73,1, što ga smješta odmah iza OpenAI-jevih O3 i O4-Mini modela. Ovo predstavlja veliki napredak za open-source model, osobito onaj razvijen s daleko manje resursa od zapadnih konkurenata.
Tehničke specifikacije pokazuju da R1-0528 zadržava Mixture-of-Experts (MoE) arhitekturu svog prethodnika, s ukupno oko 685 milijardi parametara, iako je tijekom izvođenja aktivno samo oko 37 milijardi. Model sada podržava prošireni kontekst do 128.000 tokena, što mu omogućuje obradu znatno većih dokumenata i kodne baze.
Povratne informacije korisnika ističu poboljšanja u dubini rezoniranja, kvaliteti pisanja i sposobnostima rješavanja problema. Programeri navode da model sada može sudjelovati u produženim sesijama rezoniranja u trajanju od 30 do 60 minuta za složene zadatke, slično Googleovim modelima. Nadogradnja također rješava prethodne nedostatke u generiranju teksta, proizvodeći prirodniji i bolje formatiran sadržaj.
Neprestana inovacija DeepSeeka dovodi u pitanje uvjerenje da je za skaliranje umjetne inteligencije nužna golema računalna snaga i ulaganja. Uspjeh tvrtke s isplativim open-source modelima već je natjerao tehnološke divove na reakciju – OpenAI je snizio cijene, a Google uveo povoljnije razine pristupa. U međuvremenu, kineski konkurenti poput Alibabe i Tencenta predstavili su vlastite modele za koje tvrde da nadmašuju DeepSeekove mogućnosti.
Nadogradnja R1-0528 dostupna je na Hugging Faceu pod MIT licencom, što omogućuje komercijalnu upotrebu i prilagodbe. Industrijski analitičari očekuju da će DeepSeek u narednim mjesecima predstaviti opsežniji R2 model, što bi moglo dodatno uzdrmati AI krajolik.