Čínský startup DeepSeek nadále narušuje globální prostředí umělé inteligence svými nejnovějšími inovacemi v oblasti optimalizace modelů. Společnost 29. května oznámila, že varianta jejího nedávno aktualizovaného modelu pro uvažování R1-0528 byla použita k vylepšení základního modelu Qwen 3 8B od Alibaby prostřednictvím procesu zvaného destilace.
Tato technika destilace, která přenáší znalosti ze sofistikovanějšího modelu do menšího, umožnila DeepSeeku předat uvažovací procesy svého modelu R1-0528 do systému Alibaby. Podle oznámení DeepSeeku tento postup vedl ke zlepšení výkonu modelu Qwen 3 o více než 10 %.
„Věříme, že chain-of-thought z DeepSeek-R1-0528 bude mít zásadní význam jak pro akademický výzkum, tak pro praktické aplikace,“ uvedl DeepSeek ve svém oznámení. Společnost již dříve vydala několik destilovaných modelů založených jak na architektuře Qwen, tak na Meta Llama, a to v rozsahu od 1,5 miliardy do 70 miliard parametrů.
Přístup DeepSeeku k vývoji AI vzbudil značnou pozornost již v lednu, kdy jeho model R1 dosáhl výkonu srovnatelného s produkty OpenAI a Google při zlomku výpočetních nákladů. Úspěch společnosti zpochybnil dosavadní představu, že špičková AI vyžaduje masivní výpočetní zdroje a investice.
Navzdory americkým exportním omezením na pokročilé AI čipy DeepSeek optimalizoval své modely tak, aby efektivně běžely na méně výkonném, exportem schváleném hardwaru. Tato strategie přiměla konkurenty přehodnotit svou závislost na hardwaru a ovlivnila dynamiku trhu v oblasti AI.
Nejnovější aktualizace R1-0528 přibližuje model DeepSeek výkonu reasoning modelů OpenAI o3 a Google Gemini 2.5 Pro, a to díky výraznému zlepšení v hloubce uvažování, schopnostech inferencí a omezení halucinací. Neustálé inovace společnosti a její open-source přístup mění očekávání ohledně vývoje a efektivity nasazení AI modelů.