Startup-ul chinez de inteligență artificială DeepSeek continuă să perturbe peisajul global al inteligenței artificiale cu cea mai recentă inovație în optimizarea modelelor. Pe 29 mai, compania a dezvăluit că o variantă a modelului său de raționament actualizat, R1-0528, a fost folosită pentru a îmbunătăți modelul Qwen 3 8B Base al Alibaba printr-un proces cunoscut sub numele de distilare.
Tehnica de distilare, care transferă cunoștințe de la un model mai sofisticat către unul mai mic, a permis DeepSeek să transmită procesele de raționament ale modelului său R1-0528 către sistemul Alibaba. Potrivit anunțului DeepSeek, acest proces a dus la îmbunătățiri ale performanței de peste 10% pentru modelul Qwen 3.
„Credem că lanțul de gândire oferit de DeepSeek-R1-0528 va avea o importanță semnificativă atât pentru cercetarea academică, cât și pentru aplicațiile practice”, a declarat DeepSeek în anunțul său. Compania a lansat anterior mai multe modele distilate, bazate atât pe arhitectura Qwen, cât și pe cea Llama de la Meta, cu dimensiuni cuprinse între 1,5B și 70B de parametri.
Abordarea DeepSeek în dezvoltarea AI a atras atenția încă din ianuarie, când modelul său R1 a demonstrat performanțe comparabile cu cele oferite de OpenAI și Google, la o fracțiune din costul de calcul. Succesul companiei a pus sub semnul întrebării ideea că AI-ul de ultimă generație necesită resurse de calcul masive și investiții uriașe.
În ciuda restricțiilor de export impuse de SUA asupra cipurilor AI avansate, DeepSeek și-a optimizat modelele pentru a funcționa eficient pe hardware cu consum redus de energie, aprobat pentru export. Această strategie i-a determinat pe competitori să își regândească dependența de hardware și a influențat dinamica pieței în sectorul AI.
Cea mai recentă actualizare R1-0528 aduce modelul DeepSeek mai aproape de performanțele modelelor de raționament o3 de la OpenAI și Gemini 2.5 Pro de la Google, cu îmbunătățiri semnificative în profunzimea raționamentului, capacitățile de inferență și reducerea halucinațiilor. Inovația continuă a companiei și abordarea open-source rescriu așteptările privind dezvoltarea și eficiența implementării modelelor AI.