menu
close

DeepSeek подобрява изкуствения интелект на Alibaba чрез дистилация на знания

Китайският AI стартъп DeepSeek обяви на 29 май 2025 г., че е подобрил базовия модел Qwen 3 8B на Alibaba чрез процес на дистилация на знания с помощта на своя обновен reasoning модел R1-0528. Техниката на дистилация прехвърля усъвършенстваните възможности за разсъждение на DeepSeek към модела на Alibaba, което води до над 10% подобрение в производителността. Това сътрудничество подчертава нарастващото влияние на DeepSeek в AI сектора и ангажимента му към повишаване на ефективността на моделите чрез иновативни оптимизационни подходи.
DeepSeek подобрява изкуствения интелект на Alibaba чрез дистилация на знания

Китайският AI стартъп DeepSeek продължава да променя глобалния пейзаж на изкуствения интелект с последната си иновация в оптимизацията на модели. На 29 май компанията разкри, че вариант на наскоро обновения ѝ reasoning модел R1-0528 е използван за подобряване на базовия модел Qwen 3 8B на Alibaba чрез процес, известен като дистилация.

Техниката на дистилация, която прехвърля знания от по-усъвършенстван модел към по-малък, позволи на DeepSeek да предаде процесите на разсъждение от своя модел R1-0528 към системата на Alibaba. Според съобщението на DeepSeek този процес е довел до подобрение на производителността от над 10% при модела Qwen 3.

"Вярваме, че chain-of-thought подходът на DeepSeek-R1-0528 ще има съществено значение както за академичните изследвания, така и за практическите приложения", заявиха от DeepSeek в своето съобщение. Компанията вече е пуснала няколко дистилирани модела, базирани както на архитектурите Qwen, така и на Llama на Meta, с размери от 1.5B до 70B параметъра.

Подходът на DeepSeek към разработката на AI привлича значително внимание още от януари, когато моделът R1 показа производителност, съпоставима с предложенията на OpenAI и Google, но при много по-ниски изчислителни разходи. Успехът на компанията оспорва широкоразпространеното схващане, че водещият AI изисква огромни изчислителни ресурси и инвестиции.

Въпреки ограниченията за износ на напреднали AI чипове от САЩ, DeepSeek е оптимизирала своите модели така, че да работят ефективно и на хардуер с по-ниска мощност, одобрен за износ. Тази стратегия принуди конкурентите да преосмислят зависимостите си от хардуера и повлия на динамиката на пазара в AI сектора.

Последната актуализация R1-0528 доближава модела на DeepSeek до производителността на reasoning моделите o3 на OpenAI и Gemini 2.5 Pro на Google, с осезаеми подобрения в дълбочината на разсъжденията, способностите за извеждане и намаляване на халюцинациите. Продължаващите иновации и отвореният подход на компанията променят очакванията за разработка и ефективност при внедряването на AI модели.

Source:

Latest News