menu
close

DAPO: Otvoreno-izvorski iskorak revolucionira AI zaključivanje

Istraživači iz ByteDancea i Sveučilišta Tsinghua predstavili su DAPO, potpuno otvoreno-izvorski sustav za učenje potkrepljivanjem koji postiže vrhunske matematičke sposobnosti zaključivanja. Sustav nadmašuje prethodne modele uz 50% manje koraka treniranja te čini prethodno skrivene tehničke detalje dostupnima široj AI zajednici. Ovo postignuće rješava jaz u transparentnosti naprednih AI sustava za zaključivanje, omogućujući širu inovaciju i ponovljivost.
DAPO: Otvoreno-izvorski iskorak revolucionira AI zaključivanje

U značajnom iskoraku za otvoreno-izvorsku umjetnu inteligenciju, istraživači iz ByteDancea i Sveučilišta Tsinghua predstavili su DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization), revolucionarni sustav za učenje potkrepljivanjem koji postiže iznimne sposobnosti zaključivanja, pritom naglašavajući transparentnost i dostupnost.

DAPO je izravan odgovor na izazove AI zajednice u reproduciranju najnaprednijih rezultata učenja potkrepljivanjem zbog skrivenih tehničkih detalja velikih industrijskih igrača poput OpenAI-a i DeepSeeka. Učenje potkrepljivanjem postalo je ključno za napredak velikih jezičnih modela (LLM-ova), omogućujući im poboljšane sposobnosti zaključivanja potrebne za složene zadatke. Međutim, istraživačka zajednica suočava se sa znatnim izazovima u reproduciranju vrhunskih RL tehnika zbog nepotpunog otkrivanja ključnih detalja treniranja od strane vodećih industrijskih aktera. Ova netransparentnost ograničila je napredak šire znanstvene zajednice i suradničkih istraživanja.

Sustav postiže 50 bodova na zahtjevnom matematičkom natjecanju AIME 2024 koristeći Qwen2.5-32B bazni model. Za razliku od prethodnih radova koji zadržavaju detalje treniranja, DAPO uvodi četiri ključne tehnike koje omogućuju uspješno učenje potkrepljivanjem velikih LLM-ova. Osim toga, istraživači su otvorili izvorni kod za treniranje, temeljen na verl okviru, zajedno s pažljivo odabranim i obrađenim skupom podataka.

Ono što DAPO čini posebno impresivnim jest njegova učinkovitost. Nadmašuje prethodno najnapredniji DeepSeek-R1-Zero-Qwen-32B koristeći samo 50% koraka treniranja. Ova učinkovitost proizlazi iz četiri temeljne inovacije: Prva, "Clip-Higher", rješava problem kolapsa entropije, situaciju u kojoj se modeli prerano ograniče na uske obrasce istraživanja. Pažljivim upravljanjem omjerom rezanja u ažuriranjima politike, ova tehnika potiče veću raznolikost izlaza modela. "Dynamic Sampling" suzbija neučinkovitosti u treniranju dinamičkim filtriranjem uzoraka prema njihovoj korisnosti, osiguravajući tako konzistentniji signal gradijenta. "Token-level Policy Gradient Loss" nudi profinjeniju metodu izračuna gubitka, naglašavajući prilagodbe na razini tokena umjesto na razini uzorka, što bolje odgovara različitim duljinama sekvenci zaključivanja. Konačno, "Overlong Reward Shaping" uvodi kontroliranu kaznu za preduge odgovore, nježno usmjeravajući modele prema sažetijem i učinkovitijem zaključivanju.

Objava DAPO-a dolazi usred vala otvoreno-izvorskih iskoraka u učenju potkrepljivanjem. Još jedan značajan napredak je MiroMind-M1, potpuno otvoreno-izvorski sustav koji obuhvaća skupove podataka, modele, kod za treniranje i evaluacijske skripte, postavljajući nove standarde otvorenosti i vrhunskog matematičkog zaključivanja unutar Qwen-2.5 ekosustava modela. MiroMind-M1 temelji se na robusnoj Qwen-2.5 osnovi, s poboljšanjima posebno usmjerenima na matematičko zaključivanje.

Industrijski utjecaj ovih razvoja je značajan, pri čemu se sektor učenja potkrepljivanjem procjenjuje na više od 122 milijarde dolara u 2025. Njegove primjene obuhvaćaju robotiku, autonomna vozila, optimizaciju lanca opskrbe, zdravstvo i igre, a slučajevi korištenja se šire kako tehnologija sazrijeva.

Čineći prethodno nedostupne metodologije potpuno transparentnima, DAPO i slične otvoreno-izvorske inicijative demokratiziraju napredne AI mogućnosti, omogućujući istraživačima, startupovima i etabliranim tvrtkama da grade na ovim inovacijama bez ograničenja vlasničkih sustava.

Source:

Latest News