menu
close

DAPO:开源突破性进展革新AI推理能力

字节跳动与清华大学的研究人员发布了DAPO——一套完全开源的强化学习系统,在数学推理能力上达到了业界领先水平。该系统在训练步数减少50%的情况下超越了以往模型,并首次向AI社区公开了此前被隐藏的关键技术细节。这一突破弥补了先进AI推理系统的透明度缺口,推动了更广泛的创新与可复现性。
DAPO:开源突破性进展革新AI推理能力

在开源人工智能领域取得的重要进展中,字节跳动与清华大学的研究人员联合推出了DAPO(Decoupled Clip and Dynamic sAmpling Policy Optimization,解耦裁剪与动态采样策略优化),这是一套开创性的强化学习系统,不仅具备卓越的推理能力,还高度重视透明度与可获取性。

DAPO直接回应了AI社区在复现业界领先强化学习成果时遇到的难题——主要行业参与者如OpenAI和DeepSeek往往未公开关键技术细节,导致复现困难。强化学习已成为推动大语言模型(LLM)进步的核心技术,使其具备完成复杂任务所需的推理能力。然而,由于主流企业未完整披露关键训练细节,研究界在复现最前沿RL技术时面临巨大挑战。这种不透明性限制了更广泛的科学进步与协作研究。

DAPO系统基于Qwen2.5-32B底座模型,在AIME 2024高难度数学竞赛中取得了50分的优异成绩。与以往未公开训练细节的工作不同,DAPO首次引入了四项关键技术,推动大规模LLM强化学习取得成功。此外,研究团队已基于verl框架开源了训练代码,并同步发布了精心筛选与处理的数据集。

DAPO的高效性尤为突出。其在训练步数仅为前沿模型DeepSeek-R1-Zero-Qwen-32B一半的情况下,性能却实现了超越。 这种高效得益于四项核心创新:首先,“Clip-Higher”技术解决了熵塌缩问题——即模型过早陷入有限探索模式。通过精细调整策略更新中的裁剪比例,该方法鼓励模型输出更多样化。其次,“动态采样”通过动态筛选有用样本,提升训练效率,确保梯度信号更为稳定。“Token级策略梯度损失”则在损失计算上进行了细化,强调对推理序列长度变化的适应,提升了训练的精度。最后,“超长奖励塑形”通过对过长回复进行适度惩罚,引导模型输出更简洁高效的推理过程。

DAPO的发布正值开源强化学习领域突破不断之际。另一项值得关注的进展是MiroMind-M1,这是一条涵盖数据集、模型、训练代码与评测脚本的全流程开源管道,在Qwen-2.5模型生态下树立了开放性与数学推理能力的新标杆。MiroMind-M1基于强大的Qwen-2.5主干,专为数学推理场景进行了优化。

这些进展对行业影响深远。预计到2025年,强化学习市场规模将超过1220亿美元,其应用涵盖机器人、自动驾驶、供应链优化、医疗健康及游戏等领域,随着技术成熟,应用场景还在不断拓展。

通过将此前难以获得的方法论完全公开,DAPO及类似的开源项目正在推动先进AI能力的普及,使研究人员、初创企业和成熟公司都能在不受专有系统限制的情况下,基于这些创新成果持续发展。

Source:

Latest News