DAPO: Avoimen lähdekoodin läpimurto mullistaa tekoälyn päättelykyvyt

ByteDancen ja Tsinghuan yliopiston tutkijat ovat julkaisseet DAPO:n, täysin avoimen lähdekoodin vahvistusoppimisen järjestelmän, joka saavuttaa huipputason matemaattisen päättelyn kyvykkyyden. Järjestelmä ylittää aiemmat mallit käyttäen 50 % vähemmän opetuskertoja ja tekee aiemmin salatut tekniset yksityiskohdat laajemman tekoälyyhteisön saataville. Tämä läpimurto kaventaa läpinäkyvyyden kuilua kehittyneissä tekoälyn päättelyjärjestelmissä, mahdollistaen laajemman innovaation ja toistettavuuden.

Avoimen lähdekoodin tekoälyn merkittävässä edistysaskeleessa ByteDancen ja Tsinghuan yliopiston tutkijat ovat esitelleet DAPO:n (Decoupled Clip and Dynamic sAmpling Policy Optimization), uraauurtavan vahvistusoppimisen järjestelmän, joka saavuttaa poikkeukselliset päättelykyvyt painottaen samalla läpinäkyvyyttä ja saavutettavuutta.

DAPO on suora vastaus tekoälyyhteisön haasteisiin toistaa huipputason vahvistusoppimisen tuloksia, sillä alan suuret toimijat kuten OpenAI ja DeepSeek ovat jättäneet keskeisiä teknisiä yksityiskohtia paljastamatta. Vahvistusoppimisesta on tullut keskeinen osa suurten kielimallien (LLM) kehitystä, sillä se mahdollistaa niille parannetut päättelykyvyt, joita vaaditaan monimutkaisiin tehtäviin. Tutkimusyhteisö kohtaa kuitenkin merkittäviä haasteita huipputason RL-tekniikoiden toistamisessa, koska alan johtavat toimijat eivät ole jakaneet kaikkia olennaisia koulutusyksityiskohtia. Tämä läpinäkyvyyden puute on rajoittanut laajempaa tieteellistä kehitystä ja yhteistyötä.

Järjestelmä saavuttaa 50 pistettä vaativassa AIME 2024 -matematiikkakilpailussa käyttäen Qwen2.5-32B-perusmallia. Toisin kuin aiemmat työt, jotka salaavat koulutuksen yksityiskohdat, DAPO esittelee neljä keskeistä tekniikkaa, jotka mahdollistavat laajamittaisen LLM-vahvistusoppimisen onnistumisen. Lisäksi tutkijat ovat julkaisseet koulutuskoodinsa avoimesti verl-kehyksen päälle, sekä huolellisesti kuratoidun ja prosessoidun aineiston.

DAPO:n erityinen vahvuus on sen tehokkuus. Se ylittää aiemman huipputason DeepSeek-R1-Zero-Qwen-32B-mallin käyttäen vain 50 % sen opetuskierroksista. Tämä tehokkuus perustuu neljään keskeiseen innovaatioon: Ensimmäinen, "Clip-Higher", ratkaisee entropian romahtamisen ongelman, jossa mallit jämähtävät liian varhaisesti rajoitettuihin tutkimuskuvioihin. Hallitsemalla tarkasti politiikkapäivitysten leikkaussuhdetta tämä tekniikka kannustaa monipuolisempiin mallin tuottoihin. "Dynamic Sampling" torjuu koulutuksen tehottomuutta suodattamalla dynaamisesti näytteitä niiden hyödyllisyyden perusteella, varmistaen näin tasaisemman gradienttisignaalin. "Token-level Policy Gradient Loss" tarjoaa tarkemman tavan laskea tappio, painottaen token-tason säätöjä näytekohtaisten sijaan, mikä soveltuu paremmin vaihtelevan mittaisiin päättelyketjuihin. Lopuksi "Overlong Reward Shaping" tuo hallitun rangaistuksen liian pitkille vastauksille, ohjaten malleja kohti ytimekkäämpää ja tehokkaampaa päättelyä.

DAPO:n julkaisu ajoittuu avoimen lähdekoodin vahvistusoppimisen läpimurtojen aaltoon. Toinen merkittävä edistysaskel on MiroMind-M1, täysin avoimen lähdekoodin kokonaisuus, joka kattaa aineistot, mallit, koulutuskoodin ja arviointiskriptit, ja asettaa uudet standardit avoimuudelle ja huipputason matemaattiselle päättelylle Qwen-2.5-malliekosysteemissä. MiroMind-M1 rakentuu vankalle Qwen-2.5-pohjalle, ja siinä on erityisiä parannuksia matemaattista päättelyä varten.

Näiden kehitysten vaikutus alaan on merkittävä, sillä vahvistusoppimisen markkinan arvoksi arvioidaan yli 122 miljardia dollaria vuonna 2025. Sovelluskohteita ovat muun muassa robotiikka, autonomiset ajoneuvot, toimitusketjujen optimointi, terveydenhuolto ja peliteollisuus, ja käyttötapaukset laajenevat teknologian kehittyessä.

Tekemällä aiemmin saavuttamattomat menetelmät täysin läpinäkyviksi DAPO ja muut avoimen lähdekoodin aloitteet demokratisoivat kehittyneitä tekoälykyvykkyyksiä, mahdollistaen tutkijoiden, startupien ja vakiintuneiden yritysten rakentaa näiden innovaatioiden päälle ilman suljettujen järjestelmien rajoituksia.

Source:

DAPO: Avoimen lähdekoodin läpimurto mullistaa tekoälyn päättelykyvyt

Latest News

GitHub Copilot saavutti 20 miljoonan käyttäjän rajapyykin ja mullistaa kehittäjien työnkulut

Googlen Imagen 4 Ultra nousi kolmanneksi tekoälykuvageneraattoreiden rankingissa

Muskin xAI laajentaa Grokia videopohjaisella tekoälyllä ja virtuaalikumppaneilla

Moonvalleyn fysiikkaohjattu tekoäly muuttaa luonnokset elokuvamaiseksi todellisuudeksi

Manus julkaisee 100-agenttisen tekoälyparven rinnakkaisiin tutkimustehtäviin

Tekoäly mullistaa kiinteistöalan: 40 miljardin dollarin teollisuuden muutos

Meta mullistaa tekoälyvuorovaikutuksen Llama 4 -pohjaisella avustajalla

Xiaomi esittelee uuden sukupolven tekoälypohjaisen äänimallin älykoteihin ja autoihin

Microsoft esittelee tekoälyagentit työpaikkojen tuottavuuskriisin ratkaisemiseksi

OpenAI siirtyy avoimeen lähdekoodiin kilpailun muuttaessa tekoälyn kenttää

DAPO: Avoimen lähdekoodin läpimurto mullistaa tekoälyn päättelykyvyt

Related Articles

GitHub Copilot saavutti 20 miljoonan käyttäjän rajapyykin ja mullistaa kehittäjien työnkulut

Muskin xAI laajentaa Grokia videopohjaisella tekoälyllä ja virtuaalikumppaneilla

Manus julkaisee 100-agenttisen tekoälyparven rinnakkaisiin tutkimustehtäviin

Tekoäly mullistaa kiinteistöalan: 40 miljardin dollarin teollisuuden muutos

Xiaomi esittelee uuden sukupolven tekoälypohjaisen äänimallin älykoteihin ja autoihin

Latest News

GitHub Copilot saavutti 20 miljoonan käyttäjän rajapyykin ja mullistaa kehittäjien työnkulut

Googlen Imagen 4 Ultra nousi kolmanneksi tekoälykuvageneraattoreiden rankingissa

Muskin xAI laajentaa Grokia videopohjaisella tekoälyllä ja virtuaalikumppaneilla

Moonvalleyn fysiikkaohjattu tekoäly muuttaa luonnokset elokuvamaiseksi todellisuudeksi

Manus julkaisee 100-agenttisen tekoälyparven rinnakkaisiin tutkimustehtäviin

Tekoäly mullistaa kiinteistöalan: 40 miljardin dollarin teollisuuden muutos

Meta mullistaa tekoälyvuorovaikutuksen Llama 4 -pohjaisella avustajalla

Xiaomi esittelee uuden sukupolven tekoälypohjaisen äänimallin älykoteihin ja autoihin

Microsoft esittelee tekoälyagentit työpaikkojen tuottavuuskriisin ratkaisemiseksi

OpenAI siirtyy avoimeen lähdekoodiin kilpailun muuttaessa tekoälyn kenttää