Dalam sebuah kemajuan signifikan untuk kecerdasan buatan open-source, para peneliti dari ByteDance dan Universitas Tsinghua memperkenalkan DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization), sebuah sistem reinforcement learning revolusioner yang menghadirkan kemampuan penalaran luar biasa dengan mengedepankan transparansi dan aksesibilitas.
DAPO merupakan respons langsung terhadap tantangan komunitas AI dalam mereproduksi hasil reinforcement learning terbaik akibat detail teknis yang disembunyikan oleh pelaku industri besar seperti OpenAI dan DeepSeek. Reinforcement learning kini menjadi inti dalam pengembangan Large Language Models (LLM), memberdayakan mereka dengan kemampuan penalaran yang dibutuhkan untuk tugas-tugas kompleks. Namun, komunitas riset menghadapi tantangan besar dalam mereplikasi teknik RL terbaik karena kurangnya keterbukaan detail pelatihan utama dari para pemain industri besar. Ketertutupan ini membatasi kemajuan upaya ilmiah dan kolaborasi yang lebih luas.
Sistem ini meraih skor 50 pada kompetisi matematika AIME 2024 yang menantang, menggunakan model dasar Qwen2.5-32B. Berbeda dengan karya sebelumnya yang menahan detail pelatihan, DAPO memperkenalkan empat teknik kunci yang membuat reinforcement learning LLM skala besar menjadi sukses. Selain itu, para peneliti telah membuka kode pelatihan mereka, yang dibangun di atas framework verl, beserta dataset yang telah dikurasi dan diproses secara cermat.
Yang membuat DAPO sangat mengesankan adalah efisiensinya. DAPO melampaui DeepSeek-R1-Zero-Qwen-32B, model terbaik sebelumnya, dengan hanya menggunakan 50% langkah pelatihan. Efisiensi ini berasal dari empat inovasi inti: Pertama, "Clip-Higher" mengatasi masalah entropy collapse, yaitu kondisi di mana model terlalu cepat terjebak dalam pola eksplorasi yang terbatas. Dengan mengatur rasio clipping pada pembaruan kebijakan, teknik ini mendorong keragaman output model. "Dynamic Sampling" mengatasi inefisiensi pelatihan dengan secara dinamis menyaring sampel berdasarkan kegunaannya, memastikan sinyal gradien yang lebih konsisten. "Token-level Policy Gradient Loss" menawarkan metode perhitungan loss yang lebih halus, menekankan penyesuaian pada tingkat token, bukan hanya sampel, untuk mengakomodasi panjang urutan penalaran yang bervariasi. Terakhir, "Overlong Reward Shaping" memperkenalkan penalti terkontrol untuk respons yang terlalu panjang, secara halus membimbing model agar menghasilkan penalaran yang ringkas dan efisien.
Peluncuran DAPO hadir di tengah gelombang terobosan reinforcement learning open-source. Salah satu kemajuan lain yang menonjol adalah MiroMind-M1, sebuah pipeline open-source penuh yang mencakup dataset, model, kode pelatihan, dan skrip evaluasi, serta menetapkan standar baru untuk keterbukaan dan penalaran matematis terbaik dalam ekosistem model Qwen-2.5. MiroMind-M1 dibangun di atas fondasi Qwen-2.5 yang tangguh, dengan peningkatan khusus untuk penalaran matematis.
Dampak industri dari perkembangan ini sangat besar, dengan sektor reinforcement learning diperkirakan bernilai lebih dari $122 miliar pada tahun 2025. Aplikasinya meliputi robotika, kendaraan otonom, optimasi rantai pasok, layanan kesehatan, dan gim, dengan kasus penggunaan yang terus berkembang seiring kematangan teknologi.
Dengan membuka metodologi yang sebelumnya tidak dapat diakses secara penuh, DAPO dan inisiatif open-source serupa mendemokratisasi kemampuan AI tingkat lanjut, memungkinkan peneliti, startup, dan perusahaan mapan membangun inovasi tanpa batasan sistem proprietary.