DeepSeek, startup-ul chinez de inteligență artificială care a provocat scăderi pe bursă în ianuarie cu modelul său revoluționar R1, a lansat discret o actualizare importantă a sistemului său AI de vârf.
Noua versiune, denumită DeepSeek-R1-0528, a fost lansată pe 28 mai, fără prea multă publicitate, printr-un anunț scurt în grupul de WeChat al companiei. Deși DeepSeek a descris actualizarea drept „o îmbunătățire minoră de test”, testele timpurii arată progrese substanțiale în mai multe domenii.
Potrivit clasamentului LiveCodeBench, modelul actualizat ocupă acum locul al patrulea la capitolul abilități de programare, cu un scor Pass@1 de 73,1, situându-se imediat după modelele O3 și O4-Mini de la OpenAI. Aceasta reprezintă un salt major pentru un model open-source, mai ales având în vedere resursele semnificativ mai reduse față de omologii săi occidentali.
Specificațiile tehnice arată că R1-0528 păstrează arhitectura Mixture-of-Experts (MoE) a predecesorului său, cu aproximativ 685 de miliarde de parametri în total, însă doar circa 37 de miliarde sunt active în timpul inferenței. Modelul suportă acum o fereastră de context extinsă, de până la 128.000 de tokeni, permițând procesarea unor documente și baze de cod mult mai mari.
Feedback-ul utilizatorilor evidențiază îmbunătățiri în profunzimea raționamentului, calitatea redactării și abilitățile de rezolvare a problemelor. Dezvoltatorii raportează că modelul poate susține sesiuni extinse de raționament, de 30-60 de minute, pentru sarcini complexe, similar cu modelele Google. Actualizarea rezolvă și unele probleme anterioare de generare a textului, livrând conținut mai natural și mai bine formatat.
Inovația continuă a DeepSeek pune sub semnul întrebării ideea că scalarea AI necesită putere de calcul și investiții uriașe. Succesul companiei cu modele open-source eficiente din punct de vedere al costurilor a determinat deja reacții din partea giganților tehnologici, OpenAI reducând prețurile, iar Google introducând niveluri de acces cu discount. Între timp, competitori chinezi precum Alibaba și Tencent au lansat propriile modele, susținând că depășesc capabilitățile DeepSeek.
Actualizarea R1-0528 este disponibilă pe Hugging Face sub licență MIT, permițând utilizarea comercială și modificările. Analiștii din industrie anticipează că DeepSeek va lansa în lunile următoare modelul R2, mai complex, care ar putea perturba și mai mult peisajul AI.