Китайският AI стартъп DeepSeek продължава да променя глобалния пейзаж на изкуствения интелект с последната си иновация в оптимизацията на модели. На 29 май компанията разкри, че вариант на наскоро обновения ѝ reasoning модел R1-0528 е използван за подобряване на базовия модел Qwen 3 8B на Alibaba чрез процес, известен като дистилация.
Техниката на дистилация, която прехвърля знания от по-усъвършенстван модел към по-малък, позволи на DeepSeek да предаде процесите на разсъждение от своя модел R1-0528 към системата на Alibaba. Според съобщението на DeepSeek този процес е довел до подобрение на производителността от над 10% при модела Qwen 3.
"Вярваме, че chain-of-thought подходът на DeepSeek-R1-0528 ще има съществено значение както за академичните изследвания, така и за практическите приложения", заявиха от DeepSeek в своето съобщение. Компанията вече е пуснала няколко дистилирани модела, базирани както на архитектурите Qwen, така и на Llama на Meta, с размери от 1.5B до 70B параметъра.
Подходът на DeepSeek към разработката на AI привлича значително внимание още от януари, когато моделът R1 показа производителност, съпоставима с предложенията на OpenAI и Google, но при много по-ниски изчислителни разходи. Успехът на компанията оспорва широкоразпространеното схващане, че водещият AI изисква огромни изчислителни ресурси и инвестиции.
Въпреки ограниченията за износ на напреднали AI чипове от САЩ, DeepSeek е оптимизирала своите модели така, че да работят ефективно и на хардуер с по-ниска мощност, одобрен за износ. Тази стратегия принуди конкурентите да преосмислят зависимостите си от хардуера и повлия на динамиката на пазара в AI сектора.
Последната актуализация R1-0528 доближава модела на DeepSeek до производителността на reasoning моделите o3 на OpenAI и Gemini 2.5 Pro на Google, с осезаеми подобрения в дълбочината на разсъжденията, способностите за извеждане и намаляване на халюцинациите. Продължаващите иновации и отвореният подход на компанията променят очакванията за разработка и ефективност при внедряването на AI модели.