Startup AI China, DeepSeek, terus menggegarkan landskap kecerdasan buatan global dengan inovasi terbaharu dalam pengoptimuman model. Pada 29 Mei, syarikat itu mendedahkan bahawa varian model penaakulan R1-0528 yang baru dikemas kini telah digunakan untuk meningkatkan model Qwen 3 8B Base milik Alibaba melalui proses yang dikenali sebagai distilasi.
Teknik distilasi, yang memindahkan pengetahuan daripada model yang lebih canggih kepada model yang lebih kecil, membolehkan DeepSeek memindahkan proses penaakulan daripada model R1-0528 ke sistem Alibaba. Menurut pengumuman DeepSeek, proses ini telah menghasilkan peningkatan prestasi melebihi 10% untuk model Qwen 3.
"Kami percaya bahawa kaedah chain-of-thought daripada DeepSeek-R1-0528 akan menjadi sangat penting untuk penyelidikan akademik dan aplikasi praktikal," kata DeepSeek dalam pengumumannya. Syarikat ini sebelum ini telah melancarkan beberapa model distilasi berasaskan seni bina Qwen dan Llama milik Meta, dengan saiz parameter antara 1.5B hingga 70B.
Pendekatan DeepSeek terhadap pembangunan AI telah menarik perhatian sejak Januari apabila model R1 mereka menunjukkan prestasi setanding dengan tawaran daripada OpenAI dan Google pada kos pengkomputeran yang jauh lebih rendah. Kejayaan syarikat ini telah mencabar tanggapan bahawa AI termaju memerlukan sumber pengkomputeran dan pelaburan yang besar.
Walaupun berdepan sekatan eksport cip AI canggih oleh Amerika Syarikat, DeepSeek telah mengoptimumkan model-modelnya agar dapat berjalan dengan cekap pada perkakasan berkuasa rendah yang diluluskan untuk eksport. Strategi ini telah memaksa pesaing untuk menilai semula kebergantungan terhadap perkakasan dan mempengaruhi dinamik pasaran dalam sektor AI.
Kemas kini R1-0528 terbaharu membawa model DeepSeek semakin hampir dengan prestasi model penaakulan o3 OpenAI dan Gemini 2.5 Pro milik Google, dengan peningkatan ketara dalam kedalaman penaakulan, keupayaan inferens, dan pengurangan halusinasi. Inovasi berterusan dan pendekatan sumber terbuka syarikat ini sedang membentuk semula jangkaan terhadap pembangunan dan kecekapan pelaksanaan model AI.