DAPO: Open-Source Gennembrud Revolutionerer AI-Resonering

Forskere fra ByteDance og Tsinghua Universitet har udgivet DAPO, et fuldt open-source forstærkningslæringssystem, der opnår førende matematiske resoneringsevner. Systemet overgår tidligere modeller med 50% færre træningstrin og gør tidligere skjulte tekniske detaljer tilgængelige for det bredere AI-fællesskab. Dette gennembrud adresserer gennemsigtighedsgabet i avancerede AI-resoneringssystemer og muliggør bredere innovation og reproducerbarhed.

I et markant fremskridt for open-source kunstig intelligens har forskere fra ByteDance og Tsinghua Universitet præsenteret DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization), et banebrydende forstærkningslæringssystem, der opnår exceptionelle resoneringsevner med fokus på gennemsigtighed og tilgængelighed.

DAPO er et direkte svar på AI-fællesskabets udfordringer med at reproducere førende resultater inden for forstærkningslæring, da store aktører som OpenAI og DeepSeek ofte har tilbageholdt tekniske detaljer. Forstærkningslæring er blevet central for udviklingen af store sprogmodeller (LLM'er), da det giver dem forbedrede resoneringsevner, som er nødvendige for komplekse opgaver. Forskermiljøet har dog haft betydelige udfordringer med at reproducere de nyeste RL-teknikker på grund af mangelfuld offentliggørelse af væsentlige træningsdetaljer fra de store aktører. Denne mangel på gennemsigtighed har begrænset den videnskabelige udvikling og samarbejdsforskning.

Systemet opnår 50 point i den krævende AIME 2024 matematik-konkurrence ved brug af Qwen2.5-32B basismodellen. I modsætning til tidligere arbejder, der tilbageholder træningsdetaljer, introducerer DAPO fire centrale teknikker, der gør forstærkningslæring i store sprogmodeller succesfuld. Derudover har forskerne open-sourcet deres træningskode, bygget på verl-rammeværket, sammen med et nøje udvalgt og bearbejdet datasæt.

Det, der gør DAPO særligt imponerende, er dets effektivitet. Det overgår den hidtidige førende model DeepSeek-R1-Zero-Qwen-32B, mens det kun bruger 50% af træningstrinene. Denne effektivitet skyldes fire kerneinnovationer: Den første, "Clip-Higher", adresserer problemet med entropikollaps, hvor modeller for tidligt låser sig fast i begrænsede udforskningsmønstre. Ved omhyggeligt at styre klipningsforholdet i politikopdateringer fremmer denne teknik større diversitet i modellens output. "Dynamic Sampling" modvirker ineffektivitet i træningen ved dynamisk at filtrere eksempler baseret på deres nytteværdi, hvilket sikrer et mere stabilt gradientsignal. "Token-level Policy Gradient Loss" tilbyder en raffineret tabsberegning, hvor justeringer sker på token-niveau frem for sample-niveau, hvilket bedre tilpasser sig varierende længder af resoneringsekvenser. Endelig introducerer "Overlong Reward Shaping" en kontrolleret straf for alt for lange svar og guider dermed modellerne mod mere præcise og effektive resoneringer.

Udgivelsen af DAPO sker samtidig med en bølge af open-source gennembrud inden for forstærkningslæring. En anden bemærkelsesværdig udvikling er MiroMind-M1, en fuldt open-source pipeline, der spænder over datasæt, modeller, træningskode og evalueringsscripts og sætter nye standarder for åbenhed og førende matematiske resoneringsevner i Qwen-2.5 modeløkosystemet. MiroMind-M1 er bygget på den robuste Qwen-2.5-platform med forbedringer målrettet matematiske resoneringsevner.

Industriens betydning af disse udviklinger er betydelig, idet markedet for forstærkningslæring vurderes til over 122 milliarder dollars i 2025. Anvendelserne spænder fra robotteknologi, autonome køretøjer, optimering af forsyningskæder, sundhedssektoren og gaming, og brugsscenarierne udvides i takt med teknologiens modning.

Ved at gøre tidligere utilgængelige metoder fuldt gennemsigtige demokratiserer DAPO og lignende open-source initiativer avancerede AI-evner og gør det muligt for forskere, startups og etablerede virksomheder at bygge videre på disse innovationer uden begrænsninger fra proprietære systemer.

Source:

DAPO: Open-Source Gennembrud Revolutionerer AI-Resonering

Latest News

GitHub Copilot runder 20 millioner brugere og forandrer udvikleres arbejdsgange

Googles Imagen 4 Ultra rykker op som nummer tre i AI-billedgenerering

Musks xAI udvider Grok med video-AI og virtuelle ledsagere

Moonvalleys fysikdrevne AI forvandler skitser til filmisk virkelighed

Manus frigiver AI-sværm med 100 agenter til parallelle forskningstasks

AI-revolution omformer ejendomsbranchen: 40 milliarder dollars industri i transformation

Meta revolutionerer AI-interaktion med Llama 4-drevet assistent

Xiaomi lancerer næste generations AI-stemmemodel til smarte hjem og biler

Microsoft lancerer AI-agenter for at bekæmpe produktivitetskrise på arbejdspladsen

OpenAI skifter kurs: Satser på open source, mens konkurrenter omformer AI-landskabet

DAPO: Open-Source Gennembrud Revolutionerer AI-Resonering

Related Articles

GitHub Copilot runder 20 millioner brugere og forandrer udvikleres arbejdsgange

Musks xAI udvider Grok med video-AI og virtuelle ledsagere

Manus frigiver AI-sværm med 100 agenter til parallelle forskningstasks

AI-revolution omformer ejendomsbranchen: 40 milliarder dollars industri i transformation

Xiaomi lancerer næste generations AI-stemmemodel til smarte hjem og biler

Latest News

GitHub Copilot runder 20 millioner brugere og forandrer udvikleres arbejdsgange

Googles Imagen 4 Ultra rykker op som nummer tre i AI-billedgenerering

Musks xAI udvider Grok med video-AI og virtuelle ledsagere

Moonvalleys fysikdrevne AI forvandler skitser til filmisk virkelighed

Manus frigiver AI-sværm med 100 agenter til parallelle forskningstasks

AI-revolution omformer ejendomsbranchen: 40 milliarder dollars industri i transformation

Meta revolutionerer AI-interaktion med Llama 4-drevet assistent

Xiaomi lancerer næste generations AI-stemmemodel til smarte hjem og biler

Microsoft lancerer AI-agenter for at bekæmpe produktivitetskrise på arbejdspladsen

OpenAI skifter kurs: Satser på open source, mens konkurrenter omformer AI-landskabet