DAPO: Terobosan Open-Source Merevolusi Penalaran AI

Para peneliti dari ByteDance dan Universitas Tsinghua merilis DAPO, sebuah sistem reinforcement learning open-source sepenuhnya yang mencapai kemampuan penalaran matematis terbaik di kelasnya. Sistem ini melampaui model-model sebelumnya dengan menggunakan 50% langkah pelatihan lebih sedikit dan membuka detail teknis yang sebelumnya tersembunyi untuk komunitas AI yang lebih luas. Terobosan ini menjawab kesenjangan transparansi pada sistem penalaran AI tingkat lanjut, mendorong inovasi dan reprodusibilitas yang lebih luas.

Dalam sebuah kemajuan signifikan untuk kecerdasan buatan open-source, para peneliti dari ByteDance dan Universitas Tsinghua memperkenalkan DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization), sebuah sistem reinforcement learning revolusioner yang menghadirkan kemampuan penalaran luar biasa dengan mengedepankan transparansi dan aksesibilitas.

DAPO merupakan respons langsung terhadap tantangan komunitas AI dalam mereproduksi hasil reinforcement learning terbaik akibat detail teknis yang disembunyikan oleh pelaku industri besar seperti OpenAI dan DeepSeek. Reinforcement learning kini menjadi inti dalam pengembangan Large Language Models (LLM), memberdayakan mereka dengan kemampuan penalaran yang dibutuhkan untuk tugas-tugas kompleks. Namun, komunitas riset menghadapi tantangan besar dalam mereplikasi teknik RL terbaik karena kurangnya keterbukaan detail pelatihan utama dari para pemain industri besar. Ketertutupan ini membatasi kemajuan upaya ilmiah dan kolaborasi yang lebih luas.

Sistem ini meraih skor 50 pada kompetisi matematika AIME 2024 yang menantang, menggunakan model dasar Qwen2.5-32B. Berbeda dengan karya sebelumnya yang menahan detail pelatihan, DAPO memperkenalkan empat teknik kunci yang membuat reinforcement learning LLM skala besar menjadi sukses. Selain itu, para peneliti telah membuka kode pelatihan mereka, yang dibangun di atas framework verl, beserta dataset yang telah dikurasi dan diproses secara cermat.

Yang membuat DAPO sangat mengesankan adalah efisiensinya. DAPO melampaui DeepSeek-R1-Zero-Qwen-32B, model terbaik sebelumnya, dengan hanya menggunakan 50% langkah pelatihan. Efisiensi ini berasal dari empat inovasi inti: Pertama, "Clip-Higher" mengatasi masalah entropy collapse, yaitu kondisi di mana model terlalu cepat terjebak dalam pola eksplorasi yang terbatas. Dengan mengatur rasio clipping pada pembaruan kebijakan, teknik ini mendorong keragaman output model. "Dynamic Sampling" mengatasi inefisiensi pelatihan dengan secara dinamis menyaring sampel berdasarkan kegunaannya, memastikan sinyal gradien yang lebih konsisten. "Token-level Policy Gradient Loss" menawarkan metode perhitungan loss yang lebih halus, menekankan penyesuaian pada tingkat token, bukan hanya sampel, untuk mengakomodasi panjang urutan penalaran yang bervariasi. Terakhir, "Overlong Reward Shaping" memperkenalkan penalti terkontrol untuk respons yang terlalu panjang, secara halus membimbing model agar menghasilkan penalaran yang ringkas dan efisien.

Peluncuran DAPO hadir di tengah gelombang terobosan reinforcement learning open-source. Salah satu kemajuan lain yang menonjol adalah MiroMind-M1, sebuah pipeline open-source penuh yang mencakup dataset, model, kode pelatihan, dan skrip evaluasi, serta menetapkan standar baru untuk keterbukaan dan penalaran matematis terbaik dalam ekosistem model Qwen-2.5. MiroMind-M1 dibangun di atas fondasi Qwen-2.5 yang tangguh, dengan peningkatan khusus untuk penalaran matematis.

Dampak industri dari perkembangan ini sangat besar, dengan sektor reinforcement learning diperkirakan bernilai lebih dari $122 miliar pada tahun 2025. Aplikasinya meliputi robotika, kendaraan otonom, optimasi rantai pasok, layanan kesehatan, dan gim, dengan kasus penggunaan yang terus berkembang seiring kematangan teknologi.

Dengan membuka metodologi yang sebelumnya tidak dapat diakses secara penuh, DAPO dan inisiatif open-source serupa mendemokratisasi kemampuan AI tingkat lanjut, memungkinkan peneliti, startup, dan perusahaan mapan membangun inovasi tanpa batasan sistem proprietary.

Source:

DAPO: Terobosan Open-Source Merevolusi Penalaran AI

Latest News

GitHub Copilot Capai 20 Juta Pengguna, Ubah Alur Kerja Pengembang

Imagen 4 Ultra dari Google Naik ke Peringkat Ketiga dalam Klasemen Generasi Gambar AI

xAI Milik Musk Perluas Grok dengan AI Video dan Pendamping Virtual

AI Berbasis Fisika Moonvalley Ubah Sketsa Menjadi Realitas Sinematik

Manus Luncurkan Swarm AI 100 Agen untuk Tugas Riset Paralel

Revolusi AI Mengubah Wajah Properti: Transformasi Industri Senilai $40 Miliar

Meta Merevolusi Interaksi AI dengan Asisten Berbasis Llama 4

Xiaomi Luncurkan Model Suara AI Generasi Baru untuk Rumah Pintar dan Mobil

Microsoft Luncurkan Agen AI untuk Atasi Krisis Produktivitas di Tempat Kerja

OpenAI Beralih ke Open-Source saat Kompetisi Mengubah Lanskap AI

DAPO: Terobosan Open-Source Merevolusi Penalaran AI

Related Articles

GitHub Copilot Capai 20 Juta Pengguna, Ubah Alur Kerja Pengembang

xAI Milik Musk Perluas Grok dengan AI Video dan Pendamping Virtual

Manus Luncurkan Swarm AI 100 Agen untuk Tugas Riset Paralel

Revolusi AI Mengubah Wajah Properti: Transformasi Industri Senilai $40 Miliar

Xiaomi Luncurkan Model Suara AI Generasi Baru untuk Rumah Pintar dan Mobil

Latest News

GitHub Copilot Capai 20 Juta Pengguna, Ubah Alur Kerja Pengembang

Imagen 4 Ultra dari Google Naik ke Peringkat Ketiga dalam Klasemen Generasi Gambar AI

xAI Milik Musk Perluas Grok dengan AI Video dan Pendamping Virtual

AI Berbasis Fisika Moonvalley Ubah Sketsa Menjadi Realitas Sinematik

Manus Luncurkan Swarm AI 100 Agen untuk Tugas Riset Paralel

Revolusi AI Mengubah Wajah Properti: Transformasi Industri Senilai $40 Miliar

Meta Merevolusi Interaksi AI dengan Asisten Berbasis Llama 4

Xiaomi Luncurkan Model Suara AI Generasi Baru untuk Rumah Pintar dan Mobil

Microsoft Luncurkan Agen AI untuk Atasi Krisis Produktivitas di Tempat Kerja

OpenAI Beralih ke Open-Source saat Kompetisi Mengubah Lanskap AI