DeepSeek, čínsky startup v oblasti umelej inteligencie, ktorý v januári spôsobil otras na technologických trhoch svojím prelomovým modelom R1, potichu predstavil významnú aktualizáciu svojho vlajkového AI systému.
Nová verzia, označená ako DeepSeek-R1-0528, bola vydaná 28. mája bez väčšej publicity prostredníctvom krátkeho oznámenia v skupine spoločnosti na WeChate. Hoci DeepSeek ju označuje za „menšiu skúšobnú aktualizáciu“, prvé testy ukazujú výrazné zlepšenia v rôznych oblastiach.
Podľa rebríčka LiveCodeBench sa aktualizovaný model aktuálne umiestňuje na štvrtom mieste v programovacích schopnostiach s hodnotením Pass@1 na úrovni 73,1, čím sa radí tesne za modely O3 a O4-Mini od OpenAI. Ide o výrazný pokrok pre open-source model, najmä ak vezmeme do úvahy, že bol vyvinutý s podstatne menšími zdrojmi než západná konkurencia.
Technické špecifikácie ukazujú, že R1-0528 si zachováva architektúru Mixture-of-Experts (MoE) svojho predchodcu s celkovým počtom približne 685 miliárd parametrov, pričom počas inferencie je aktívnych len asi 37 miliárd. Model teraz podporuje rozšírené kontextové okno až do 128 000 tokenov, čo mu umožňuje spracovávať oveľa väčšie dokumenty a kódy.
Spätná väzba od používateľov vyzdvihuje zlepšenia v hĺbke uvažovania, kvalite písania a schopnosti riešiť problémy. Vývojári uvádzajú, že model dokáže viesť rozšírené uvažovacie relácie trvajúce 30 až 60 minút pri zložitých úlohách, podobne ako modely od Googlu. Aktualizácia tiež rieši predchádzajúce nedostatky v generovaní textu a prináša prirodzenejší a lepšie formátovaný obsah.
Pokračujúca inovácia DeepSeek spochybňuje predstavu, že škálovanie AI si vyžaduje obrovský výpočtový výkon a investície. Úspech spoločnosti s nákladovo efektívnymi open-source modelmi už prinútil technologických gigantov reagovať – OpenAI znížil ceny a Google predstavil zľavnené prístupové úrovne. Medzitým čínski konkurenti ako Alibaba a Tencent uvádzajú vlastné modely, ktoré údajne prekonávajú schopnosti DeepSeek.
Aktualizácia R1-0528 je dostupná na platforme Hugging Face pod licenciou MIT, čo umožňuje komerčné využitie aj úpravy. Odborníci očakávajú, že DeepSeek v najbližších mesiacoch uvedie komplexnejší model R2, ktorý by mohol ešte výraznejšie zamiešať kartami na poli umelej inteligencie.