DAPO: Öppen källkod-revolution förändrar AI-resonemang

Forskare från ByteDance och Tsinghua-universitetet har lanserat DAPO, ett helt öppet förstärkningsinlärningssystem som uppnår banbrytande matematiska resonemangsförmågor. Systemet överträffar tidigare modeller med 50 % färre träningssteg och gör tidigare dolda tekniska detaljer tillgängliga för hela AI-gemenskapen. Detta genombrott minskar transparensgapet i avancerade AI-resonerande system och möjliggör bredare innovation och reproducerbarhet.

I ett betydande framsteg för öppen källkod inom artificiell intelligens har forskare från ByteDance och Tsinghua-universitetet presenterat DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization), ett banbrytande förstärkningsinlärningssystem som uppnår exceptionella resonemangsförmågor med fokus på transparens och tillgänglighet.

DAPO är ett direkt svar på AI-gemenskapens svårigheter att reproducera toppresultat inom förstärkningsinlärning, till följd av att stora aktörer som OpenAI och DeepSeek undanhåller tekniska detaljer. Förstärkningsinlärning har blivit avgörande för utvecklingen av stora språkmodeller (LLM), vilket ger dem förbättrade resonemangsförmågor som krävs för komplexa uppgifter. Forskarsamhället har dock stött på stora utmaningar med att reproducera de senaste RL-teknikerna på grund av ofullständig insyn i viktiga träningsdetaljer från ledande aktörer. Denna brist på öppenhet har hämmat den bredare vetenskapliga utvecklingen och samarbetet.

Systemet når 50 poäng på den utmanande matematikolympiaden AIME 2024 med Qwen2.5-32B som basmodell. Till skillnad från tidigare arbeten som undanhåller träningsdetaljer introducerar DAPO fyra nyckeltekniker som gör förstärkningsinlärning i storskaliga LLM:er framgångsrik. Forskarna har dessutom släppt sin träningskod med öppen källkod, byggd på verl-ramverket, tillsammans med ett noggrant utvalt och bearbetat dataset.

Det som gör DAPO särskilt imponerande är dess effektivitet. Det överträffar det tidigare toppmodellen DeepSeek-R1-Zero-Qwen-32B och använder endast 50 % av träningsstegen. Denna effektivitet bygger på fyra centrala innovationer: Den första, "Clip-Higher", motverkar så kallad entropikollaps, där modeller fastnar i begränsade utforskningsmönster. Genom att noggrant styra klippningskvoten i policyuppdateringar främjar denna teknik större variation i modellens svar. "Dynamic Sampling" motverkar ineffektivitet i träningen genom att dynamiskt filtrera prover baserat på deras användbarhet, vilket ger en jämnare gradientsignal. "Token-level Policy Gradient Loss" erbjuder en förfinad förlustberäkning på token-nivå snarare än på provnivå, vilket bättre hanterar varierande längd på resonemangssekvenser. Slutligen inför "Overlong Reward Shaping" en kontrollerad bestraffning för alltför långa svar och styr därmed modellerna mot mer koncisa och effektiva resonemang.

DAPO lanseras i en tid av flera genombrott inom öppen förstärkningsinlärning. Ett annat anmärkningsvärt framsteg är MiroMind-M1, en helt öppen pipeline som omfattar dataset, modeller, träningskod och utvärderingsskript och sätter nya standarder för öppenhet och topprestanda inom matematiskt resonemang i Qwen-2.5-modellens ekosystem. MiroMind-M1 bygger på den robusta Qwen-2.5-ryggraden och är särskilt förbättrad för matematiskt resonemang.

Den industriella påverkan av dessa framsteg är betydande, med förstärkningsinlärningssektorn värderad till över 122 miljarder dollar år 2025. Användningsområdena sträcker sig från robotik, autonoma fordon och optimering av leveranskedjor till sjukvård och spel, och tillämpningarna växer i takt med att teknologin mognar.

Genom att göra tidigare otillgängliga metoder helt transparenta demokratiserar DAPO och liknande open source-initiativ avancerade AI-förmågor, vilket gör det möjligt för forskare, startups och etablerade företag att bygga vidare på dessa innovationer utan begränsningar från proprietära system.

Source:

DAPO: Öppen källkod-revolution förändrar AI-resonemang

Latest News

GitHub Copilot når 20 miljoner användare och förändrar utvecklarnas arbetsflöden

Googles Imagen 4 Ultra klättrar till tredje plats i AI-rankning för bildgenerering

Musks xAI utökar Grok med video-AI och virtuella följeslagare

Moonvalleys fysikdrivna AI förvandlar skisser till filmisk verklighet

Manus släpper lös AI-svärm med 100 agenter för parallella forskninguppgifter

AI-revolutionen omformar fastighetsbranschen: 40 miljarder dollar i branschförändring

Meta revolutionerar AI-interaktion med Llama 4-drivna assistenten

Xiaomi lanserar nästa generations AI-röstmodell för smarta hem och bilar

Microsoft lanserar AI-agenter för att motverka produktivitetskris på arbetsplatsen

OpenAI svänger om till öppen källkod när konkurrensen omformar AI-landskapet

DAPO: Öppen källkod-revolution förändrar AI-resonemang

Related Articles

GitHub Copilot når 20 miljoner användare och förändrar utvecklarnas arbetsflöden

Musks xAI utökar Grok med video-AI och virtuella följeslagare

Manus släpper lös AI-svärm med 100 agenter för parallella forskninguppgifter

AI-revolutionen omformar fastighetsbranschen: 40 miljarder dollar i branschförändring

Xiaomi lanserar nästa generations AI-röstmodell för smarta hem och bilar

Latest News

GitHub Copilot når 20 miljoner användare och förändrar utvecklarnas arbetsflöden

Googles Imagen 4 Ultra klättrar till tredje plats i AI-rankning för bildgenerering

Musks xAI utökar Grok med video-AI och virtuella följeslagare

Moonvalleys fysikdrivna AI förvandlar skisser till filmisk verklighet

Manus släpper lös AI-svärm med 100 agenter för parallella forskninguppgifter

AI-revolutionen omformar fastighetsbranschen: 40 miljarder dollar i branschförändring

Meta revolutionerar AI-interaktion med Llama 4-drivna assistenten

Xiaomi lanserar nästa generations AI-röstmodell för smarta hem och bilar

Microsoft lanserar AI-agenter för att motverka produktivitetskris på arbetsplatsen

OpenAI svänger om till öppen källkod när konkurrensen omformar AI-landskapet