menu
close

DAPO: Open-Source Doorbraak Revolutioneert AI-Redeneren

Onderzoekers van ByteDance en de Tsinghua Universiteit hebben DAPO uitgebracht, een volledig open-source reinforcement learning-systeem dat toonaangevende wiskundige redeneercapaciteiten behaalt. Het systeem presteert beter dan eerdere modellen met 50% minder trainingsstappen en maakt voorheen verborgen technische details toegankelijk voor de bredere AI-gemeenschap. Deze doorbraak verkleint de transparantiekloof in geavanceerde AI-redeneersystemen en stimuleert bredere innovatie en reproduceerbaarheid.
DAPO: Open-Source Doorbraak Revolutioneert AI-Redeneren

In een belangrijke stap voor open-source kunstmatige intelligentie hebben onderzoekers van ByteDance en de Tsinghua Universiteit DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization) onthuld, een baanbrekend reinforcement learning-systeem dat uitzonderlijke redeneercapaciteiten bereikt met nadruk op transparantie en toegankelijkheid.

DAPO is een direct antwoord op de worsteling binnen de AI-gemeenschap om toonaangevende reinforcement learning-resultaten te reproduceren, veroorzaakt door het achterhouden van technische details door grote spelers zoals OpenAI en DeepSeek. Reinforcement learning is essentieel geworden voor de ontwikkeling van Large Language Models (LLM's), die hierdoor beter kunnen redeneren bij complexe taken. De onderzoeksgemeenschap ondervindt echter grote uitdagingen bij het reproduceren van de nieuwste RL-technieken door het ontbreken van volledige openheid over trainingsdetails door grote bedrijven. Deze ondoorzichtigheid heeft de vooruitgang van wetenschappelijk onderzoek en samenwerking afgeremd.

Het systeem behaalt 50 punten op de uitdagende AIME 2024-wiskundewedstrijd met het Qwen2.5-32B-basismodel. In tegenstelling tot eerdere projecten die trainingsdetails achterhouden, introduceert DAPO vier sleuteltechnieken die grootschalige LLM-reinforcement learning mogelijk maken. Daarnaast hebben de onderzoekers hun trainingscode, gebaseerd op het verl-framework, en een zorgvuldig samengestelde en verwerkte dataset open-source beschikbaar gesteld.

Wat DAPO bijzonder indrukwekkend maakt, is de efficiëntie. Het presteert beter dan het vorige toonaangevende model DeepSeek-R1-Zero-Qwen-32B, terwijl het slechts 50% van het aantal trainingsstappen gebruikt. Deze efficiëntie is te danken aan vier kerninnovaties: De eerste, "Clip-Higher", pakt het probleem van entropie-instorting aan, waarbij modellen te vroeg vastlopen in beperkte verkenningspatronen. Door de clippingratio in beleidsupdates zorgvuldig te beheren, stimuleert deze techniek meer diversiteit in modeluitvoer. "Dynamic Sampling" bestrijdt inefficiënties in training door dynamisch samples te filteren op bruikbaarheid, wat zorgt voor een consistentere gradientsignaal. De "Token-level Policy Gradient Loss" biedt een verfijnde verliesberekening, met nadruk op token-niveau in plaats van sample-niveau, zodat variërende lengtes van redeneerreeksen beter worden opgevangen. Tot slot introduceert "Overlong Reward Shaping" een gecontroleerde straf voor te lange antwoorden, waarmee modellen subtiel worden gestuurd naar bondig en efficiënt redeneren.

De release van DAPO komt op een moment van een golf aan open-source doorbraken in reinforcement learning. Een andere opmerkelijke ontwikkeling is MiroMind-M1, een volledig open-source pijplijn met datasets, modellen, trainingscode en evaluatiescripts, die nieuwe standaarden zet voor openheid en toonaangevend wiskundig redeneren binnen het Qwen-2.5-modelecosysteem. MiroMind-M1 is gebouwd op de robuuste Qwen-2.5-basis, met verbeteringen specifiek gericht op wiskundig redeneren.

De impact van deze ontwikkelingen op de industrie is aanzienlijk: de reinforcement learning-sector wordt in 2025 geschat op meer dan $122 miljard. Toepassingen variëren van robotica, autonome voertuigen, supply chain-optimalisatie, gezondheidszorg tot gaming, met steeds meer gebruiksmogelijkheden naarmate de technologie volwassen wordt.

Door voorheen ontoegankelijke methodologieën volledig transparant te maken, democratiseren DAPO en vergelijkbare open-source-initiatieven geavanceerde AI-capaciteiten. Ze stellen onderzoekers, startups en gevestigde bedrijven in staat om voort te bouwen op deze innovaties zonder de beperkingen van propriëtaire systemen.

Source:

Latest News