menu
close

DAPO:オープンソースのブレークスルーがAI推論を革新

バイトダンスと清華大学の研究者らが、最先端の数学的推論能力を実現する完全オープンソースの強化学習システム「DAPO」を公開しました。本システムは従来モデルよりも50%少ない学習ステップで高い性能を発揮し、これまで非公開だった技術的詳細も広くAIコミュニティに開放しています。このブレークスルーは、高度なAI推論システムにおける透明性のギャップを解消し、より幅広いイノベーションと再現性を可能にします。
DAPO:オープンソースのブレークスルーがAI推論を革新

オープンソース人工知能分野における大きな進展として、バイトダンスと清華大学の研究者らは、透明性とアクセシビリティを重視した画期的な強化学習システム「DAPO(Decoupled Clip and Dynamic sAmpling Policy Optimization)」を発表しました。

DAPOは、OpenAIやDeepSeekといった大手企業による技術的詳細の非公開が原因で、最先端の強化学習結果の再現が困難だったAIコミュニティの課題に直接応えるものです。強化学習は大規模言語モデル(LLM)の進化に不可欠であり、複雑なタスクに必要な推論能力を高めています。しかし、主要企業が学習の重要な詳細を十分に公開しないため、研究コミュニティは最先端のRL技術の再現に大きな困難を抱えてきました。この不透明性が、より広範な科学的進展や協調的研究の妨げとなっていました。

DAPOはQwen2.5-32Bベースモデルを用いて、難易度の高いAIME 2024数学コンペティションで50ポイントを達成しています。従来の研究が学習詳細を非公開にしていたのに対し、DAPOは大規模LLMの強化学習を成功に導く4つの主要技術を導入しています。さらに、verlフレームワーク上に構築した学習コードと、厳選・加工されたデータセットもオープンソースで公開しました。

DAPOの特筆すべき点は、その効率性にあります。従来の最先端モデルDeepSeek-R1-Zero-Qwen-32Bを上回る性能を、学習ステップを50%削減して実現しています。この効率性は、4つの中核的なイノベーションによるものです。第一に「Clip-Higher」は、モデルが探索パターンを早期に固定化してしまうエントロピー崩壊問題に対処します。方策更新時のクリッピング比率を慎重に管理することで、出力の多様性を促進します。「Dynamic Sampling」は、サンプルの有用性に基づいて動的にフィルタリングを行い、学習の非効率性を解消し、一貫した勾配信号を確保します。「Token-level Policy Gradient Loss」は、サンプル単位ではなくトークン単位で損失計算を最適化し、推論シーケンスの長さの違いに柔軟に対応します。最後に「Overlong Reward Shaping」は、過度に長い応答に対して制御されたペナルティを与えることで、モデルを簡潔かつ効率的な推論に誘導します。

DAPOのリリースは、オープンソース強化学習分野のブレークスルーが相次ぐ中で発表されました。注目すべきもう一つの進展として、MiroMind-M1が挙げられます。これは、データセット・モデル・学習コード・評価スクリプトまで完全にオープンソース化されたパイプラインであり、Qwen-2.5モデルエコシステムにおけるオープン性と最先端の数学的推論の新たな基準を打ち立てています。MiroMind-M1は堅牢なQwen-2.5を基盤とし、数学的推論に特化した強化が施されています。

これらの進展による産業界への影響は大きく、強化学習分野は2025年に1,220億ドル超と見積もられています。応用分野はロボティクス、自動運転車、サプライチェーン最適化、ヘルスケア、ゲームなど多岐にわたり、技術の成熟とともにユースケースも拡大しています。

これまでアクセスできなかった手法を完全に透明化することで、DAPOや同様のオープンソースの取り組みは高度なAI能力の民主化を推進し、研究者やスタートアップ、大手企業がプロプライエタリな制約なしにこれらのイノベーションを活用できるようにしています。

Source:

Latest News