中国人工智能初创公司DeepSeek凭借其在模型优化方面的最新创新,持续在全球AI领域掀起波澜。5月29日,DeepSeek宣布,利用其近期升级的R1-0528推理模型的变体,通过知识蒸馏工艺增强了阿里巴巴的Qwen 3 8B Base模型。
知识蒸馏是一种将更复杂模型的知识迁移到较小模型的技术。借助该方法,DeepSeek成功将R1-0528模型的推理能力赋予了阿里巴巴的系统。根据DeepSeek的公告,此过程使Qwen 3模型的性能提升超过10%。
DeepSeek在公告中表示:“我们相信,DeepSeek-R1-0528的链式思维(chain-of-thought)对于学术研究和实际应用都将具有重要意义。”此前,DeepSeek已基于Qwen和Meta的Llama架构发布了多款蒸馏模型,参数规模从1.5B到70B不等。
自1月以来,DeepSeek的AI开发方法备受关注。当时,其R1模型以远低于OpenAI和Google同类产品的算力成本,展现出相当的性能。公司的成功挑战了“顶尖AI必须依赖巨量算力和投资”的传统观念。
尽管面临美国对高端AI芯片的出口限制,DeepSeek依然将其模型优化至可在低功耗、出口许可硬件上高效运行。这一策略迫使竞争对手重新考虑其硬件依赖,并影响了AI行业的市场格局。
最新的R1-0528升级,使DeepSeek模型在推理深度、推断能力和减少幻觉等方面,进一步接近OpenAI的o3推理模型和Google的Gemini 2.5 Pro。公司持续的创新和开源策略,正在重塑AI模型开发与部署效率的行业预期。