DeepSeek подобрява изкуствения интелект на Alibaba чрез дистилация на знания

Китайският AI стартъп DeepSeek обяви на 29 май 2025 г., че е подобрил базовия модел Qwen 3 8B на Alibaba чрез процес на дистилация на знания с помощта на своя обновен reasoning модел R1-0528. Техниката на дистилация прехвърля усъвършенстваните възможности за разсъждение на DeepSeek към модела на Alibaba, което води до над 10% подобрение в производителността. Това сътрудничество подчертава нарастващото влияние на DeepSeek в AI сектора и ангажимента му към повишаване на ефективността на моделите чрез иновативни оптимизационни подходи.

Китайският AI стартъп DeepSeek продължава да променя глобалния пейзаж на изкуствения интелект с последната си иновация в оптимизацията на модели. На 29 май компанията разкри, че вариант на наскоро обновения ѝ reasoning модел R1-0528 е използван за подобряване на базовия модел Qwen 3 8B на Alibaba чрез процес, известен като дистилация.

Техниката на дистилация, която прехвърля знания от по-усъвършенстван модел към по-малък, позволи на DeepSeek да предаде процесите на разсъждение от своя модел R1-0528 към системата на Alibaba. Според съобщението на DeepSeek този процес е довел до подобрение на производителността от над 10% при модела Qwen 3.

"Вярваме, че chain-of-thought подходът на DeepSeek-R1-0528 ще има съществено значение както за академичните изследвания, така и за практическите приложения", заявиха от DeepSeek в своето съобщение. Компанията вече е пуснала няколко дистилирани модела, базирани както на архитектурите Qwen, така и на Llama на Meta, с размери от 1.5B до 70B параметъра.

Подходът на DeepSeek към разработката на AI привлича значително внимание още от януари, когато моделът R1 показа производителност, съпоставима с предложенията на OpenAI и Google, но при много по-ниски изчислителни разходи. Успехът на компанията оспорва широкоразпространеното схващане, че водещият AI изисква огромни изчислителни ресурси и инвестиции.

Въпреки ограниченията за износ на напреднали AI чипове от САЩ, DeepSeek е оптимизирала своите модели така, че да работят ефективно и на хардуер с по-ниска мощност, одобрен за износ. Тази стратегия принуди конкурентите да преосмислят зависимостите си от хардуера и повлия на динамиката на пазара в AI сектора.

Последната актуализация R1-0528 доближава модела на DeepSeek до производителността на reasoning моделите o3 на OpenAI и Gemini 2.5 Pro на Google, с осезаеми подобрения в дълбочината на разсъжденията, способностите за извеждане и намаляване на халюцинациите. Продължаващите иновации и отвореният подход на компанията променят очакванията за разработка и ефективност при внедряването на AI модели.

Source:

DeepSeek подобрява изкуствения интелект на Alibaba чрез дистилация на знания

Latest News

DeepSeek подобрява модела си R1 и отправя предизвикателство към западните технологични гиганти

Google Beam: Революционни 3D видеоразговори идват през 2025 г.

Google представи Gemini 2.5 Deep Think на I/O 2025

AMD придобива Enosemi, за да ускори развитието на силициева фотоника за изкуствен интелект

Уорън настоява Пентагонът да гарантира конкуренция при AI договорите на фона на растящото влияние на Мъск

ATMO роботът на Caltech се трансформира във въздуха за безпроблемни наземни операции

Google представи Project Astra и AI Mode на I/O 2025

AI системите надминават хората в тестове за емоционална интелигентност

ByteDance добавя функция за видео асистенция в реално време към Doubao AI

OnePlus се отказва от Alert Slider в полза на AI-бутон Plus Key

DeepSeek подобрява изкуствения интелект на Alibaba чрез дистилация на знания

Related Articles

DeepSeek подобрява модела си R1 и отправя предизвикателство към западните технологични гиганти

Google представи Gemini 2.5 Deep Think на I/O 2025

AMD придобива Enosemi, за да ускори развитието на силициева фотоника за изкуствен интелект

Уорън настоява Пентагонът да гарантира конкуренция при AI договорите на фона на растящото влияние на Мъск

Google представи Project Astra и AI Mode на I/O 2025

Latest News

DeepSeek подобрява модела си R1 и отправя предизвикателство към западните технологични гиганти

Google Beam: Революционни 3D видеоразговори идват през 2025 г.

Google представи Gemini 2.5 Deep Think на I/O 2025

AMD придобива Enosemi, за да ускори развитието на силициева фотоника за изкуствен интелект

Уорън настоява Пентагонът да гарантира конкуренция при AI договорите на фона на растящото влияние на Мъск

ATMO роботът на Caltech се трансформира във въздуха за безпроблемни наземни операции

Google представи Project Astra и AI Mode на I/O 2025

AI системите надминават хората в тестове за емоционална интелигентност

ByteDance добавя функция за видео асистенция в реално време към Doubao AI

OnePlus се отказва от Alert Slider в полза на AI-бутон Plus Key