科技 2025-08-05

DAPO：开源突破性进展革新AI推理能力

字节跳动与清华大学的研究人员发布了DAPO——一套完全开源的强化学习系统，在数学推理能力上达到了业界领先水平。该系统在训练步数减少50%的情况下超越了以往模型，并首次向AI社区公开了此前被隐藏的关键技术细节。这一突破弥补了先进AI推理系统的透明度缺口，推动了更广泛的创新与可复现性。

在开源人工智能领域取得的重要进展中，字节跳动与清华大学的研究人员联合推出了DAPO（Decoupled Clip and Dynamic sAmpling Policy Optimization，解耦裁剪与动态采样策略优化），这是一套开创性的强化学习系统，不仅具备卓越的推理能力，还高度重视透明度与可获取性。

DAPO直接回应了AI社区在复现业界领先强化学习成果时遇到的难题——主要行业参与者如OpenAI和DeepSeek往往未公开关键技术细节，导致复现困难。强化学习已成为推动大语言模型（LLM）进步的核心技术，使其具备完成复杂任务所需的推理能力。然而，由于主流企业未完整披露关键训练细节，研究界在复现最前沿RL技术时面临巨大挑战。这种不透明性限制了更广泛的科学进步与协作研究。

DAPO系统基于Qwen2.5-32B底座模型，在AIME 2024高难度数学竞赛中取得了50分的优异成绩。与以往未公开训练细节的工作不同，DAPO首次引入了四项关键技术，推动大规模LLM强化学习取得成功。此外，研究团队已基于verl框架开源了训练代码，并同步发布了精心筛选与处理的数据集。

DAPO的高效性尤为突出。其在训练步数仅为前沿模型DeepSeek-R1-Zero-Qwen-32B一半的情况下，性能却实现了超越。这种高效得益于四项核心创新：首先，“Clip-Higher”技术解决了熵塌缩问题——即模型过早陷入有限探索模式。通过精细调整策略更新中的裁剪比例，该方法鼓励模型输出更多样化。其次，“动态采样”通过动态筛选有用样本，提升训练效率，确保梯度信号更为稳定。“Token级策略梯度损失”则在损失计算上进行了细化，强调对推理序列长度变化的适应，提升了训练的精度。最后，“超长奖励塑形”通过对过长回复进行适度惩罚，引导模型输出更简洁高效的推理过程。

DAPO的发布正值开源强化学习领域突破不断之际。另一项值得关注的进展是MiroMind-M1，这是一条涵盖数据集、模型、训练代码与评测脚本的全流程开源管道，在Qwen-2.5模型生态下树立了开放性与数学推理能力的新标杆。MiroMind-M1基于强大的Qwen-2.5主干，专为数学推理场景进行了优化。

这些进展对行业影响深远。预计到2025年，强化学习市场规模将超过1220亿美元，其应用涵盖机器人、自动驾驶、供应链优化、医疗健康及游戏等领域，随着技术成熟，应用场景还在不断拓展。

通过将此前难以获得的方法论完全公开，DAPO及类似的开源项目正在推动先进AI能力的普及，使研究人员、初创企业和成熟公司都能在不受专有系统限制的情况下，基于这些创新成果持续发展。

Source:

Latest News

AI Technology 2025-08-05

DAPO：开源突破性进展革新AI推理能力

Latest News

GitHub Copilot用户突破2000万，重塑开发者工作流程

谷歌 Imagen 4 Ultra 跃升至 AI 图像生成排行榜第三位

马斯克旗下xAI扩展Grok，推出视频AI与虚拟伴侣

Moonvalley 推出物理驱动 AI，将草图变为电影级现实

Manus发布100代理AI集群，实现并行化研究任务

人工智能革命重塑房地产：400亿美元行业变革

Meta以Llama 4驱动助手革新AI交互体验

小米发布新一代AI语音模型，赋能智能家居与汽车

微软发布AI智能体，应对职场生产力危机

OpenAI转向开源，竞争重塑AI格局

DAPO：开源突破性进展革新AI推理能力

Related Articles

GitHub Copilot用户突破2000万，重塑开发者工作流程

马斯克旗下xAI扩展Grok，推出视频AI与虚拟伴侣

Manus发布100代理AI集群，实现并行化研究任务

人工智能革命重塑房地产：400亿美元行业变革

小米发布新一代AI语音模型，赋能智能家居与汽车

Latest News

GitHub Copilot用户突破2000万，重塑开发者工作流程

谷歌 Imagen 4 Ultra 跃升至 AI 图像生成排行榜第三位

马斯克旗下xAI扩展Grok，推出视频AI与虚拟伴侣

Moonvalley 推出物理驱动 AI，将草图变为电影级现实

Manus发布100代理AI集群，实现并行化研究任务

人工智能革命重塑房地产：400亿美元行业变革

Meta以Llama 4驱动助手革新AI交互体验

小米发布新一代AI语音模型，赋能智能家居与汽车

微软发布AI智能体，应对职场生产力危机

OpenAI转向开源，竞争重塑AI格局