I ett betydande framsteg för öppen källkod inom artificiell intelligens har forskare från ByteDance och Tsinghua-universitetet presenterat DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization), ett banbrytande förstärkningsinlärningssystem som uppnår exceptionella resonemangsförmågor med fokus på transparens och tillgänglighet.
DAPO är ett direkt svar på AI-gemenskapens svårigheter att reproducera toppresultat inom förstärkningsinlärning, till följd av att stora aktörer som OpenAI och DeepSeek undanhåller tekniska detaljer. Förstärkningsinlärning har blivit avgörande för utvecklingen av stora språkmodeller (LLM), vilket ger dem förbättrade resonemangsförmågor som krävs för komplexa uppgifter. Forskarsamhället har dock stött på stora utmaningar med att reproducera de senaste RL-teknikerna på grund av ofullständig insyn i viktiga träningsdetaljer från ledande aktörer. Denna brist på öppenhet har hämmat den bredare vetenskapliga utvecklingen och samarbetet.
Systemet når 50 poäng på den utmanande matematikolympiaden AIME 2024 med Qwen2.5-32B som basmodell. Till skillnad från tidigare arbeten som undanhåller träningsdetaljer introducerar DAPO fyra nyckeltekniker som gör förstärkningsinlärning i storskaliga LLM:er framgångsrik. Forskarna har dessutom släppt sin träningskod med öppen källkod, byggd på verl-ramverket, tillsammans med ett noggrant utvalt och bearbetat dataset.
Det som gör DAPO särskilt imponerande är dess effektivitet. Det överträffar det tidigare toppmodellen DeepSeek-R1-Zero-Qwen-32B och använder endast 50 % av träningsstegen. Denna effektivitet bygger på fyra centrala innovationer: Den första, "Clip-Higher", motverkar så kallad entropikollaps, där modeller fastnar i begränsade utforskningsmönster. Genom att noggrant styra klippningskvoten i policyuppdateringar främjar denna teknik större variation i modellens svar. "Dynamic Sampling" motverkar ineffektivitet i träningen genom att dynamiskt filtrera prover baserat på deras användbarhet, vilket ger en jämnare gradientsignal. "Token-level Policy Gradient Loss" erbjuder en förfinad förlustberäkning på token-nivå snarare än på provnivå, vilket bättre hanterar varierande längd på resonemangssekvenser. Slutligen inför "Overlong Reward Shaping" en kontrollerad bestraffning för alltför långa svar och styr därmed modellerna mot mer koncisa och effektiva resonemang.
DAPO lanseras i en tid av flera genombrott inom öppen förstärkningsinlärning. Ett annat anmärkningsvärt framsteg är MiroMind-M1, en helt öppen pipeline som omfattar dataset, modeller, träningskod och utvärderingsskript och sätter nya standarder för öppenhet och topprestanda inom matematiskt resonemang i Qwen-2.5-modellens ekosystem. MiroMind-M1 bygger på den robusta Qwen-2.5-ryggraden och är särskilt förbättrad för matematiskt resonemang.
Den industriella påverkan av dessa framsteg är betydande, med förstärkningsinlärningssektorn värderad till över 122 miljarder dollar år 2025. Användningsområdena sträcker sig från robotik, autonoma fordon och optimering av leveranskedjor till sjukvård och spel, och tillämpningarna växer i takt med att teknologin mognar.
Genom att göra tidigare otillgängliga metoder helt transparenta demokratiserar DAPO och liknande open source-initiativ avancerade AI-förmågor, vilket gör det möjligt för forskare, startups och etablerade företag att bygga vidare på dessa innovationer utan begränsningar från proprietära system.