Avoimen lähdekoodin tekoälyn merkittävässä edistysaskeleessa ByteDancen ja Tsinghuan yliopiston tutkijat ovat esitelleet DAPO:n (Decoupled Clip and Dynamic sAmpling Policy Optimization), uraauurtavan vahvistusoppimisen järjestelmän, joka saavuttaa poikkeukselliset päättelykyvyt painottaen samalla läpinäkyvyyttä ja saavutettavuutta.
DAPO on suora vastaus tekoälyyhteisön haasteisiin toistaa huipputason vahvistusoppimisen tuloksia, sillä alan suuret toimijat kuten OpenAI ja DeepSeek ovat jättäneet keskeisiä teknisiä yksityiskohtia paljastamatta. Vahvistusoppimisesta on tullut keskeinen osa suurten kielimallien (LLM) kehitystä, sillä se mahdollistaa niille parannetut päättelykyvyt, joita vaaditaan monimutkaisiin tehtäviin. Tutkimusyhteisö kohtaa kuitenkin merkittäviä haasteita huipputason RL-tekniikoiden toistamisessa, koska alan johtavat toimijat eivät ole jakaneet kaikkia olennaisia koulutusyksityiskohtia. Tämä läpinäkyvyyden puute on rajoittanut laajempaa tieteellistä kehitystä ja yhteistyötä.
Järjestelmä saavuttaa 50 pistettä vaativassa AIME 2024 -matematiikkakilpailussa käyttäen Qwen2.5-32B-perusmallia. Toisin kuin aiemmat työt, jotka salaavat koulutuksen yksityiskohdat, DAPO esittelee neljä keskeistä tekniikkaa, jotka mahdollistavat laajamittaisen LLM-vahvistusoppimisen onnistumisen. Lisäksi tutkijat ovat julkaisseet koulutuskoodinsa avoimesti verl-kehyksen päälle, sekä huolellisesti kuratoidun ja prosessoidun aineiston.
DAPO:n erityinen vahvuus on sen tehokkuus. Se ylittää aiemman huipputason DeepSeek-R1-Zero-Qwen-32B-mallin käyttäen vain 50 % sen opetuskierroksista. Tämä tehokkuus perustuu neljään keskeiseen innovaatioon: Ensimmäinen, "Clip-Higher", ratkaisee entropian romahtamisen ongelman, jossa mallit jämähtävät liian varhaisesti rajoitettuihin tutkimuskuvioihin. Hallitsemalla tarkasti politiikkapäivitysten leikkaussuhdetta tämä tekniikka kannustaa monipuolisempiin mallin tuottoihin. "Dynamic Sampling" torjuu koulutuksen tehottomuutta suodattamalla dynaamisesti näytteitä niiden hyödyllisyyden perusteella, varmistaen näin tasaisemman gradienttisignaalin. "Token-level Policy Gradient Loss" tarjoaa tarkemman tavan laskea tappio, painottaen token-tason säätöjä näytekohtaisten sijaan, mikä soveltuu paremmin vaihtelevan mittaisiin päättelyketjuihin. Lopuksi "Overlong Reward Shaping" tuo hallitun rangaistuksen liian pitkille vastauksille, ohjaten malleja kohti ytimekkäämpää ja tehokkaampaa päättelyä.
DAPO:n julkaisu ajoittuu avoimen lähdekoodin vahvistusoppimisen läpimurtojen aaltoon. Toinen merkittävä edistysaskel on MiroMind-M1, täysin avoimen lähdekoodin kokonaisuus, joka kattaa aineistot, mallit, koulutuskoodin ja arviointiskriptit, ja asettaa uudet standardit avoimuudelle ja huipputason matemaattiselle päättelylle Qwen-2.5-malliekosysteemissä. MiroMind-M1 rakentuu vankalle Qwen-2.5-pohjalle, ja siinä on erityisiä parannuksia matemaattista päättelyä varten.
Näiden kehitysten vaikutus alaan on merkittävä, sillä vahvistusoppimisen markkinan arvoksi arvioidaan yli 122 miljardia dollaria vuonna 2025. Sovelluskohteita ovat muun muassa robotiikka, autonomiset ajoneuvot, toimitusketjujen optimointi, terveydenhuolto ja peliteollisuus, ja käyttötapaukset laajenevat teknologian kehittyessä.
Tekemällä aiemmin saavuttamattomat menetelmät täysin läpinäkyviksi DAPO ja muut avoimen lähdekoodin aloitteet demokratisoivat kehittyneitä tekoälykyvykkyyksiä, mahdollistaen tutkijoiden, startupien ja vakiintuneiden yritysten rakentaa näiden innovaatioiden päälle ilman suljettujen järjestelmien rajoituksia.