中国人工智能初创企业DeepSeek曾凭借其突破性的R1模型在今年1月引发科技股大幅波动,如今已低调推出了其旗舰AI系统的重要升级版本。
新版本名为DeepSeek-R1-0528,于5月28日通过公司微信交流群简要公告发布,几乎未做过多宣传。尽管DeepSeek官方称此次为“试验性小幅升级”,但早期测试显示,该模型在多个领域均有实质性进步。
根据LiveCodeBench排行榜,升级后的模型在编程能力方面已跃居全球第四,Pass@1得分达到73.1,仅次于OpenAI的O3和O4-Mini模型。对于一款开源模型而言,这一成绩尤为突出,尤其是在研发资源远逊于西方同行的情况下。
技术规格方面,R1-0528延续了前代的MoE(专家混合)架构,总参数量约为6850亿,但推理时仅激活约370亿参数。新模型还支持高达128K tokens的扩展上下文窗口,使其能够处理更大规模的文档和代码库。
用户反馈显示,R1-0528在推理深度、写作质量及问题解决能力上均有提升。开发者表示,该模型现可进行长达30-60分钟的复杂推理会话,表现已接近Google的同类产品。此次升级还修复了此前文本生成中的部分异常,使输出内容更加自然、格式更佳。
DeepSeek的持续创新挑战了“AI发展必须依赖巨量算力和投资”的传统观念。公司凭借高性价比的开源模型,已迫使科技巨头做出回应——OpenAI下调了价格,Google则推出了折扣访问层。与此同时,阿里巴巴、腾讯等中国竞争对手也发布了自称超越DeepSeek的新模型。
R1-0528现已在Hugging Face平台以MIT协议开源,允许商业用途及修改。业内人士预计,DeepSeek将在未来几个月发布更全面的R2模型,或将进一步搅动AI行业格局。