I et markant fremskridt for open-source kunstig intelligens har forskere fra ByteDance og Tsinghua Universitet præsenteret DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization), et banebrydende forstærkningslæringssystem, der opnår exceptionelle resoneringsevner med fokus på gennemsigtighed og tilgængelighed.
DAPO er et direkte svar på AI-fællesskabets udfordringer med at reproducere førende resultater inden for forstærkningslæring, da store aktører som OpenAI og DeepSeek ofte har tilbageholdt tekniske detaljer. Forstærkningslæring er blevet central for udviklingen af store sprogmodeller (LLM'er), da det giver dem forbedrede resoneringsevner, som er nødvendige for komplekse opgaver. Forskermiljøet har dog haft betydelige udfordringer med at reproducere de nyeste RL-teknikker på grund af mangelfuld offentliggørelse af væsentlige træningsdetaljer fra de store aktører. Denne mangel på gennemsigtighed har begrænset den videnskabelige udvikling og samarbejdsforskning.
Systemet opnår 50 point i den krævende AIME 2024 matematik-konkurrence ved brug af Qwen2.5-32B basismodellen. I modsætning til tidligere arbejder, der tilbageholder træningsdetaljer, introducerer DAPO fire centrale teknikker, der gør forstærkningslæring i store sprogmodeller succesfuld. Derudover har forskerne open-sourcet deres træningskode, bygget på verl-rammeværket, sammen med et nøje udvalgt og bearbejdet datasæt.
Det, der gør DAPO særligt imponerende, er dets effektivitet. Det overgår den hidtidige førende model DeepSeek-R1-Zero-Qwen-32B, mens det kun bruger 50% af træningstrinene. Denne effektivitet skyldes fire kerneinnovationer: Den første, "Clip-Higher", adresserer problemet med entropikollaps, hvor modeller for tidligt låser sig fast i begrænsede udforskningsmønstre. Ved omhyggeligt at styre klipningsforholdet i politikopdateringer fremmer denne teknik større diversitet i modellens output. "Dynamic Sampling" modvirker ineffektivitet i træningen ved dynamisk at filtrere eksempler baseret på deres nytteværdi, hvilket sikrer et mere stabilt gradientsignal. "Token-level Policy Gradient Loss" tilbyder en raffineret tabsberegning, hvor justeringer sker på token-niveau frem for sample-niveau, hvilket bedre tilpasser sig varierende længder af resoneringsekvenser. Endelig introducerer "Overlong Reward Shaping" en kontrolleret straf for alt for lange svar og guider dermed modellerne mod mere præcise og effektive resoneringer.
Udgivelsen af DAPO sker samtidig med en bølge af open-source gennembrud inden for forstærkningslæring. En anden bemærkelsesværdig udvikling er MiroMind-M1, en fuldt open-source pipeline, der spænder over datasæt, modeller, træningskode og evalueringsscripts og sætter nye standarder for åbenhed og førende matematiske resoneringsevner i Qwen-2.5 modeløkosystemet. MiroMind-M1 er bygget på den robuste Qwen-2.5-platform med forbedringer målrettet matematiske resoneringsevner.
Industriens betydning af disse udviklinger er betydelig, idet markedet for forstærkningslæring vurderes til over 122 milliarder dollars i 2025. Anvendelserne spænder fra robotteknologi, autonome køretøjer, optimering af forsyningskæder, sundhedssektoren og gaming, og brugsscenarierne udvides i takt med teknologiens modning.
Ved at gøre tidligere utilgængelige metoder fuldt gennemsigtige demokratiserer DAPO og lignende open-source initiativer avancerede AI-evner og gør det muligt for forskere, startups og etablerede virksomheder at bygge videre på disse innovationer uden begrænsninger fra proprietære systemer.