menu
close

DAPO: Terobosan Sumber Terbuka Merevolusikan Penaakulan AI

Penyelidik dari ByteDance dan Universiti Tsinghua telah melancarkan DAPO, sebuah sistem pembelajaran peneguhan sumber terbuka sepenuhnya yang mencapai keupayaan penaakulan matematik bertaraf dunia. Sistem ini mengatasi model-model terdahulu dengan menggunakan 50% langkah latihan yang lebih sedikit dan mendedahkan butiran teknikal yang sebelum ini tersembunyi kepada komuniti AI yang lebih luas. Terobosan ini menangani jurang ketelusan dalam sistem penaakulan AI lanjutan, membolehkan inovasi dan kebolehulangan yang lebih meluas.
DAPO: Terobosan Sumber Terbuka Merevolusikan Penaakulan AI

Dalam satu kemajuan penting untuk kecerdasan buatan sumber terbuka, penyelidik dari ByteDance dan Universiti Tsinghua telah memperkenalkan DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization), sebuah sistem pembelajaran peneguhan yang inovatif dan mencapai keupayaan penaakulan luar biasa sambil mengutamakan ketelusan dan kebolehcapaian.

DAPO merupakan tindak balas langsung terhadap cabaran komuniti AI dalam menghasilkan semula hasil pembelajaran peneguhan bertaraf dunia akibat butiran teknikal yang disembunyikan oleh pemain industri utama seperti OpenAI dan DeepSeek. Pembelajaran peneguhan kini menjadi teras dalam memajukan Model Bahasa Besar (LLM), membolehkan mereka memiliki keupayaan penaakulan yang lebih baik untuk tugasan kompleks. Namun, komuniti penyelidikan menghadapi cabaran besar dalam menghasilkan semula teknik RL bertaraf dunia kerana pendedahan butiran latihan utama yang tidak lengkap oleh pemain industri utama. Ketidaktelusan ini telah mengehadkan kemajuan usaha saintifik yang lebih meluas dan penyelidikan kolaboratif.

Sistem ini berjaya memperoleh 50 mata dalam pertandingan matematik AIME 2024 yang mencabar menggunakan model asas Qwen2.5-32B. Berbeza dengan kajian terdahulu yang menyembunyikan butiran latihan, DAPO memperkenalkan empat teknik utama yang menjadikan pembelajaran peneguhan LLM berskala besar berjaya. Selain itu, para penyelidik telah membuka kod latihan mereka, dibina di atas rangka kerja verl, bersama set data yang dipilih dan diproses dengan teliti.

Apa yang menjadikan DAPO sangat mengagumkan ialah kecekapan sistem ini. Ia mengatasi DeepSeek-R1-Zero-Qwen-32B yang sebelum ini memegang rekod terbaik, dengan hanya menggunakan 50% langkah latihan. Kecekapan ini berpunca daripada empat inovasi teras: Pertama, "Clip-Higher" menangani isu kejatuhan entropi, iaitu situasi di mana model terlalu awal terperangkap dalam corak penerokaan yang terhad. Dengan mengurus nisbah pemotongan dalam kemas kini polisi secara teliti, teknik ini menggalakkan lebih banyak kepelbagaian dalam output model. "Dynamic Sampling" pula mengatasi ketidakcekapan latihan dengan menapis sampel secara dinamik berdasarkan kegunaannya, memastikan isyarat kecerunan yang lebih konsisten. "Token-level Policy Gradient Loss" menawarkan kaedah pengiraan kerugian yang lebih terperinci, menekankan pelarasan pada peringkat token berbanding peringkat sampel untuk menampung panjang urutan penaakulan yang berbeza-beza. Akhir sekali, "Overlong Reward Shaping" memperkenalkan penalti terkawal untuk respons yang terlalu panjang, membimbing model ke arah penaakulan yang lebih ringkas dan efisien.

Pelancaran DAPO hadir di tengah-tengah lonjakan terobosan pembelajaran peneguhan sumber terbuka. Satu lagi kemajuan penting ialah MiroMind-M1, sebuah rantaian sumber terbuka sepenuhnya merangkumi set data, model, kod latihan, dan skrip penilaian yang menetapkan piawaian baharu untuk keterbukaan dan penaakulan matematik bertaraf dunia dalam ekosistem model Qwen-2.5. MiroMind-M1 dibina di atas asas kukuh Qwen-2.5, dengan penambahbaikan khusus untuk penaakulan matematik.

Kesan industri daripada perkembangan ini sangat besar, dengan sektor pembelajaran peneguhan dianggarkan bernilai lebih $122 bilion pada tahun 2025. Aplikasinya meliputi robotik, kenderaan autonomi, pengoptimuman rantaian bekalan, penjagaan kesihatan, dan permainan, dengan penggunaan yang semakin berkembang selari dengan kematangan teknologi ini.

Dengan menjadikan metodologi yang sebelum ini tidak dapat diakses kini sepenuhnya telus, DAPO dan inisiatif sumber terbuka seumpamanya sedang mendemokrasikan keupayaan AI lanjutan, membolehkan penyelidik, syarikat pemula, dan syarikat mapan membina inovasi tanpa kekangan sistem proprietari.

Source:

Latest News