menu
close

DeepSeek Tingkatkan AI Alibaba Melalui Knowledge Distillation

Startup AI asal Tiongkok, DeepSeek, mengumumkan pada 29 Mei 2025 bahwa mereka telah meningkatkan model Qwen 3 8B Base milik Alibaba melalui proses knowledge distillation menggunakan model reasoning R1-0528 yang telah diperbarui. Teknik distilasi ini mentransfer kemampuan penalaran canggih DeepSeek ke model Alibaba, menghasilkan peningkatan performa lebih dari 10%. Kolaborasi ini menyoroti pengaruh DeepSeek yang semakin besar di sektor AI dan komitmennya dalam mendorong efisiensi model melalui pendekatan optimasi inovatif.
DeepSeek Tingkatkan AI Alibaba Melalui Knowledge Distillation

Startup AI asal Tiongkok, DeepSeek, terus mengubah lanskap kecerdasan buatan global dengan inovasi terbarunya dalam optimasi model. Pada 29 Mei, perusahaan ini mengungkapkan bahwa varian dari model reasoning R1-0528 yang baru saja diperbarui telah digunakan untuk meningkatkan model Qwen 3 8B Base milik Alibaba melalui proses yang dikenal sebagai distilasi.

Teknik distilasi, yang mentransfer pengetahuan dari model yang lebih canggih ke model yang lebih kecil, memungkinkan DeepSeek untuk mengalihkan proses penalaran dari model R1-0528 miliknya ke sistem milik Alibaba. Menurut pengumuman DeepSeek, proses ini menghasilkan peningkatan performa lebih dari 10% pada model Qwen 3.

"Kami percaya bahwa chain-of-thought dari DeepSeek-R1-0528 akan memiliki signifikansi besar baik untuk riset akademis maupun aplikasi praktis," ujar DeepSeek dalam pengumumannya. Sebelumnya, perusahaan ini telah merilis beberapa model distilasi berbasis arsitektur Qwen dan Llama milik Meta, dengan ukuran mulai dari 1,5B hingga 70B parameter.

Pendekatan DeepSeek dalam pengembangan AI telah menarik perhatian sejak Januari ketika model R1 mereka menunjukkan performa sebanding dengan produk dari OpenAI dan Google, namun dengan biaya komputasi yang jauh lebih rendah. Keberhasilan perusahaan ini menantang anggapan bahwa AI mutakhir selalu membutuhkan sumber daya komputasi dan investasi besar.

Meski menghadapi pembatasan ekspor chip AI canggih dari Amerika Serikat, DeepSeek mampu mengoptimalkan model-modelnya agar berjalan efisien di perangkat keras berdaya rendah yang telah disetujui untuk ekspor. Strategi ini memaksa para pesaing untuk mempertimbangkan kembali ketergantungan mereka pada perangkat keras dan memengaruhi dinamika pasar di sektor AI.

Pembaruan R1-0528 terbaru membawa model DeepSeek semakin mendekati performa model reasoning o3 milik OpenAI dan Gemini 2.5 Pro dari Google, dengan peningkatan signifikan dalam kedalaman penalaran, kemampuan inferensi, serta pengurangan halusinasi. Inovasi berkelanjutan dan pendekatan open-source dari perusahaan ini terus membentuk ulang ekspektasi terhadap pengembangan dan efisiensi penerapan model AI.

Source:

Latest News