menu
close

DAPO: Пробив с отворен код революционизира логическите способности на ИИ

Изследователи от ByteDance и Университета Цинхуа представиха DAPO – напълно отворена система за обучение с подсилване, която постига водещи в света математически логически способности. Системата надминава предишните модели, използвайки с 50% по-малко тренировъчни стъпки, и прави досега скрити технически детайли достъпни за по-широката AI общност. Този пробив преодолява пропастта в прозрачността при напредналите логически системи с изкуствен интелект, като дава възможност за по-широки иновации и възпроизводимост.
DAPO: Пробив с отворен код революционизира логическите способности на ИИ

В значителен напредък за изкуствения интелект с отворен код, изследователи от ByteDance и Университета Цинхуа представиха DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization) – революционна система за обучение с подсилване, която постига изключителни логически способности, като поставя акцент върху прозрачността и достъпността.

DAPO е директен отговор на затрудненията на AI общността да възпроизвежда водещи резултати в обучението с подсилване, породени от скрити технически детайли от големи индустриални играчи като OpenAI и DeepSeek. Обучението с подсилване се превърна в ключов двигател за развитието на големи езикови модели (LLMs), като им дава подобрени логически способности, необходими за сложни задачи. Въпреки това, изследователската общност се сблъсква със сериозни предизвикателства при възпроизвеждането на водещи RL техники поради непълното разкриване на ключови тренировъчни детайли от водещи компании. Тази непрозрачност ограничава напредъка на по-широките научни усилия и съвместните изследвания.

Системата постига 50 точки на предизвикателното математическо състезание AIME 2024, използвайки базовия модел Qwen2.5-32B. За разлика от предишни разработки, които не разкриват тренировъчните си детайли, DAPO въвежда четири ключови техники, които правят обучението с подсилване на големи езикови модели успешно в голям мащаб. Освен това изследователите са публикували с отворен код тренировъчния си код, базиран на verl framework, заедно с внимателно подбран и обработен набор от данни.

Това, което прави DAPO особено впечатляващ, е неговата ефективност. Той надминава предишния водещ модел DeepSeek-R1-Zero-Qwen-32B, използвайки само 50% от тренировъчните стъпки. Тази ефективност се дължи на четири основни иновации: Първата, "Clip-Higher", адресира проблема с колапса на ентропията – ситуация, при която моделите преждевременно се ограничават до тесни модели на изследване. Чрез внимателно управление на съотношението на изрязване при актуализациите на политиката, тази техника насърчава по-голямо разнообразие в изходните резултати на модела. "Dynamic Sampling" противодейства на неефективността в обучението, като динамично филтрира примерите според тяхната полезност, осигурявайки по-последователен градиентен сигнал. "Token-level Policy Gradient Loss" предлага усъвършенстван метод за изчисляване на загубата, като акцентира на корекции на ниво токен, а не на ниво пример, за да се адаптира по-добре към различните дължини на логическите последователности. Накрая, "Overlong Reward Shaping" въвежда контролиран наказателен механизъм за прекалено дълги отговори, като деликатно насочва моделите към по-кратки и ефективни разсъждения.

Появата на DAPO съвпада с вълна от пробиви в обучението с подсилване с отворен код. Друго значимо постижение е MiroMind-M1, напълно отворена платформа, обхващаща набори от данни, модели, тренировъчен код и скриптове за оценка, която поставя нови стандарти за прозрачност и водещи математически логически способности в екосистемата на моделите Qwen-2.5. MiroMind-M1 е изграден върху стабилната основа на Qwen-2.5, с подобрения, насочени специално към математическото разсъждение.

Въздействието на тези разработки върху индустрията е значително, като секторът на обучението с подсилване се оценява на над 122 милиарда долара през 2025 г. Приложенията му обхващат роботика, автономни превозни средства, оптимизация на веригите за доставки, здравеопазване и гейминг, като случаите на употреба се разширяват с напредъка на технологията.

Като правят досега недостъпни методологии напълно прозрачни, DAPO и подобни инициативи с отворен код демократизират напредналите AI възможности, позволявайки на изследователи, стартиращи компании и утвърдени фирми да надграждат върху тези иновации без ограниченията на затворени системи.

Source:

Latest News