menu
close

DAPO: Przełom Open-Source Rewolucjonizuje Rozumowanie Sztucznej Inteligencji

Naukowcy z ByteDance i Uniwersytetu Tsinghua udostępnili DAPO – w pełni otwartoźródłowy system uczenia ze wzmocnieniem, który osiąga najwyższy poziom rozumowania matematycznego. System przewyższa dotychczasowe modele, wykorzystując o 50% mniej kroków treningowych, a także udostępnia szerokiej społeczności AI wcześniej ukryte szczegóły techniczne. Ten przełom niweluje lukę w transparentności zaawansowanych systemów rozumowania AI, umożliwiając szerszą innowację i powtarzalność badań.
DAPO: Przełom Open-Source Rewolucjonizuje Rozumowanie Sztucznej Inteligencji

W znaczącym przełomie dla otwartoźródłowej sztucznej inteligencji, naukowcy z ByteDance i Uniwersytetu Tsinghua zaprezentowali DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization) – przełomowy system uczenia ze wzmocnieniem, który zapewnia wyjątkowe możliwości rozumowania, stawiając jednocześnie na transparentność i dostępność.

DAPO stanowi bezpośrednią odpowiedź na trudności społeczności AI z odtwarzaniem najnowszych wyników uczenia ze wzmocnieniem, wynikające z ukrywania szczegółów technicznych przez głównych graczy branżowych, takich jak OpenAI czy DeepSeek. Uczenie ze wzmocnieniem stało się kluczowe dla rozwoju dużych modeli językowych (LLM), umożliwiając im lepsze rozumowanie niezbędne do rozwiązywania złożonych zadań. Jednak społeczność naukowa napotyka poważne trudności w odtwarzaniu najnowocześniejszych technik RL z powodu niepełnego ujawniania kluczowych szczegółów treningowych przez główne firmy branżowe. Ta nieprzejrzystość ogranicza postęp szeroko zakrojonych badań naukowych i współpracę.

System osiąga wynik 50 punktów w wymagającym konkursie matematycznym AIME 2024, wykorzystując bazowy model Qwen2.5-32B. W przeciwieństwie do wcześniejszych prac, które nie ujawniały szczegółów treningu, DAPO wprowadza cztery kluczowe techniki umożliwiające skuteczne uczenie ze wzmocnieniem na dużą skalę dla LLM. Dodatkowo naukowcy udostępnili otwartoźródłowy kod treningowy oparty na frameworku verl oraz starannie przygotowany i przetworzony zbiór danych.

To, co wyróżnia DAPO, to jego efektywność. Przewyższa on dotychczasowy stan techniki DeepSeek-R1-Zero-Qwen-32B, wykorzystując jedynie 50% kroków treningowych. Efektywność ta wynika z czterech kluczowych innowacji: Pierwsza z nich, "Clip-Higher", rozwiązuje problem zapadania się entropii, czyli sytuacji, gdy modele zbyt wcześnie ograniczają eksplorację. Dzięki precyzyjnemu zarządzaniu współczynnikiem przycinania podczas aktualizacji polityki, technika ta sprzyja większej różnorodności wyników modelu. "Dynamiczne próbkowanie" przeciwdziała nieefektywnościom treningu poprzez dynamiczne filtrowanie próbek na podstawie ich przydatności, zapewniając bardziej spójny sygnał gradientu. "Strata gradientu polityki na poziomie tokenów" to udoskonalona metoda obliczania straty, która kładzie nacisk na dostosowania na poziomie tokenów, a nie całych próbek, lepiej dostosowując się do różnych długości sekwencji rozumowania. Ostatnia technika, "Overlong Reward Shaping", wprowadza kontrolowaną karę za zbyt długie odpowiedzi, łagodnie kierując modele ku zwięzłemu i efektywnemu rozumowaniu.

Premiera DAPO wpisuje się w falę przełomów w otwartoźródłowym uczeniu ze wzmocnieniem. Kolejnym ważnym osiągnięciem jest MiroMind-M1, w pełni otwartoźródłowy pipeline obejmujący zbiory danych, modele, kod treningowy i skrypty ewaluacyjne, który wyznacza nowe standardy otwartości i rozumowania matematycznego w ekosystemie modeli Qwen-2.5. MiroMind-M1 bazuje na solidnym fundamencie Qwen-2.5, z ulepszeniami ukierunkowanymi na rozumowanie matematyczne.

Wpływ tych osiągnięć na branżę jest znaczący – wartość sektora uczenia ze wzmocnieniem szacuje się na ponad 122 miliardy dolarów w 2025 roku. Zastosowania obejmują robotykę, pojazdy autonomiczne, optymalizację łańcucha dostaw, opiekę zdrowotną i gry, a wraz z rozwojem technologii liczba przypadków użycia stale rośnie.

Poprzez pełne udostępnienie wcześniej niedostępnych metodologii, DAPO i podobne inicjatywy open-source demokratyzują zaawansowane możliwości AI, umożliwiając naukowcom, startupom i firmom rozwijanie innowacji bez ograniczeń narzucanych przez systemy zamknięte.

Source:

Latest News