In einem bedeutenden Fortschritt für Open-Source-Künstliche Intelligenz haben Forschende von ByteDance und der Tsinghua-Universität DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization) vorgestellt – ein bahnbrechendes Reinforcement-Learning-System, das außergewöhnliche Reasoning-Fähigkeiten erreicht und dabei Transparenz und Zugänglichkeit in den Vordergrund stellt.
DAPO ist eine direkte Antwort auf die Herausforderungen der KI-Community bei der Reproduzierbarkeit von State-of-the-Art-Reinforcement-Learning-Ergebnissen, die durch verborgene technische Details großer Branchenakteure wie OpenAI und DeepSeek erschwert werden. Reinforcement Learning ist zentral für die Weiterentwicklung großer Sprachmodelle (LLMs) geworden und verleiht ihnen verbesserte Reasoning-Fähigkeiten, die für komplexe Aufgaben erforderlich sind. Die Forschungsgemeinschaft steht jedoch vor erheblichen Herausforderungen bei der Reproduktion modernster RL-Techniken, da wichtige Trainingsdetails von führenden Unternehmen nicht vollständig offengelegt werden. Diese Intransparenz hat den Fortschritt breiter wissenschaftlicher Bemühungen und kollaborativer Forschung eingeschränkt.
Das System erreicht 50 Punkte beim anspruchsvollen AIME 2024 Mathematikwettbewerb auf Basis des Qwen2.5-32B-Modells. Im Gegensatz zu bisherigen Arbeiten, die Trainingsdetails zurückhalten, führt DAPO vier Schlüsseltechniken ein, die großskaliges LLM-Reinforcement-Learning erfolgreich machen. Zudem haben die Forschenden ihren Trainingscode, der auf dem verl-Framework basiert, sowie einen sorgfältig kuratierten und aufbereiteten Datensatz als Open Source veröffentlicht.
Besonders beeindruckend an DAPO ist seine Effizienz. Es übertrifft das bisherige Spitzenmodell DeepSeek-R1-Zero-Qwen-32B und benötigt dabei nur 50 % der Trainingsschritte. Diese Effizienz resultiert aus vier zentralen Innovationen: Die erste, „Clip-Higher“, adressiert das Problem des Entropie-Kollapses, bei dem Modelle zu früh in eingeschränkte Explorationsmuster verfallen. Durch eine gezielte Steuerung des Clipping-Verhältnisses bei Policy-Updates fördert diese Technik eine größere Vielfalt der Modellausgaben. „Dynamic Sampling“ begegnet Ineffizienzen im Training, indem es Stichproben dynamisch nach ihrem Nutzen filtert und so ein konsistenteres Gradienten-Signal gewährleistet. Der „Token-level Policy Gradient Loss“ bietet eine verfeinerte Verlustberechnung, die Anpassungen auf Token- statt auf Sample-Ebene betont, um unterschiedlich lange Reasoning-Sequenzen besser zu berücksichtigen. Schließlich führt „Overlong Reward Shaping“ eine kontrollierte Bestrafung für übermäßig lange Antworten ein und lenkt Modelle sanft zu prägnanterem und effizienterem Reasoning.
Die Veröffentlichung von DAPO erfolgt inmitten einer Welle von Open-Source-Durchbrüchen im Reinforcement Learning. Eine weitere bemerkenswerte Entwicklung ist MiroMind-M1, eine vollständig quelloffene Pipeline, die Datensätze, Modelle, Trainingscode und Evaluierungsskripte umfasst und neue Maßstäbe für Offenheit und mathematisches Reasoning im Qwen-2.5-Modell-Ökosystem setzt. MiroMind-M1 basiert auf dem robusten Qwen-2.5-Backbone und wurde gezielt für mathematisches Reasoning optimiert.
Die Auswirkungen dieser Entwicklungen auf die Branche sind erheblich: Für den Reinforcement-Learning-Sektor wird 2025 ein Marktvolumen von über 122 Milliarden US-Dollar erwartet. Die Anwendungen reichen von Robotik über autonome Fahrzeuge, Lieferkettenoptimierung und Gesundheitswesen bis hin zu Gaming – und die Einsatzmöglichkeiten wachsen mit der Reife der Technologie stetig.
Indem zuvor unzugängliche Methoden vollständig transparent gemacht werden, demokratisieren DAPO und ähnliche Open-Source-Initiativen fortschrittliche KI-Fähigkeiten. Sie ermöglichen es Forschenden, Start-ups und etablierten Unternehmen, auf diesen Innovationen aufzubauen – ohne die Einschränkungen proprietärer Systeme.