DAPO: Przełom Open-Source Rewolucjonizuje Rozumowanie Sztucznej Inteligencji

Naukowcy z ByteDance i Uniwersytetu Tsinghua udostępnili DAPO – w pełni otwartoźródłowy system uczenia ze wzmocnieniem, który osiąga najwyższy poziom rozumowania matematycznego. System przewyższa dotychczasowe modele, wykorzystując o 50% mniej kroków treningowych, a także udostępnia szerokiej społeczności AI wcześniej ukryte szczegóły techniczne. Ten przełom niweluje lukę w transparentności zaawansowanych systemów rozumowania AI, umożliwiając szerszą innowację i powtarzalność badań.

W znaczącym przełomie dla otwartoźródłowej sztucznej inteligencji, naukowcy z ByteDance i Uniwersytetu Tsinghua zaprezentowali DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization) – przełomowy system uczenia ze wzmocnieniem, który zapewnia wyjątkowe możliwości rozumowania, stawiając jednocześnie na transparentność i dostępność.

DAPO stanowi bezpośrednią odpowiedź na trudności społeczności AI z odtwarzaniem najnowszych wyników uczenia ze wzmocnieniem, wynikające z ukrywania szczegółów technicznych przez głównych graczy branżowych, takich jak OpenAI czy DeepSeek. Uczenie ze wzmocnieniem stało się kluczowe dla rozwoju dużych modeli językowych (LLM), umożliwiając im lepsze rozumowanie niezbędne do rozwiązywania złożonych zadań. Jednak społeczność naukowa napotyka poważne trudności w odtwarzaniu najnowocześniejszych technik RL z powodu niepełnego ujawniania kluczowych szczegółów treningowych przez główne firmy branżowe. Ta nieprzejrzystość ogranicza postęp szeroko zakrojonych badań naukowych i współpracę.

System osiąga wynik 50 punktów w wymagającym konkursie matematycznym AIME 2024, wykorzystując bazowy model Qwen2.5-32B. W przeciwieństwie do wcześniejszych prac, które nie ujawniały szczegółów treningu, DAPO wprowadza cztery kluczowe techniki umożliwiające skuteczne uczenie ze wzmocnieniem na dużą skalę dla LLM. Dodatkowo naukowcy udostępnili otwartoźródłowy kod treningowy oparty na frameworku verl oraz starannie przygotowany i przetworzony zbiór danych.

To, co wyróżnia DAPO, to jego efektywność. Przewyższa on dotychczasowy stan techniki DeepSeek-R1-Zero-Qwen-32B, wykorzystując jedynie 50% kroków treningowych. Efektywność ta wynika z czterech kluczowych innowacji: Pierwsza z nich, "Clip-Higher", rozwiązuje problem zapadania się entropii, czyli sytuacji, gdy modele zbyt wcześnie ograniczają eksplorację. Dzięki precyzyjnemu zarządzaniu współczynnikiem przycinania podczas aktualizacji polityki, technika ta sprzyja większej różnorodności wyników modelu. "Dynamiczne próbkowanie" przeciwdziała nieefektywnościom treningu poprzez dynamiczne filtrowanie próbek na podstawie ich przydatności, zapewniając bardziej spójny sygnał gradientu. "Strata gradientu polityki na poziomie tokenów" to udoskonalona metoda obliczania straty, która kładzie nacisk na dostosowania na poziomie tokenów, a nie całych próbek, lepiej dostosowując się do różnych długości sekwencji rozumowania. Ostatnia technika, "Overlong Reward Shaping", wprowadza kontrolowaną karę za zbyt długie odpowiedzi, łagodnie kierując modele ku zwięzłemu i efektywnemu rozumowaniu.

Premiera DAPO wpisuje się w falę przełomów w otwartoźródłowym uczeniu ze wzmocnieniem. Kolejnym ważnym osiągnięciem jest MiroMind-M1, w pełni otwartoźródłowy pipeline obejmujący zbiory danych, modele, kod treningowy i skrypty ewaluacyjne, który wyznacza nowe standardy otwartości i rozumowania matematycznego w ekosystemie modeli Qwen-2.5. MiroMind-M1 bazuje na solidnym fundamencie Qwen-2.5, z ulepszeniami ukierunkowanymi na rozumowanie matematyczne.

Wpływ tych osiągnięć na branżę jest znaczący – wartość sektora uczenia ze wzmocnieniem szacuje się na ponad 122 miliardy dolarów w 2025 roku. Zastosowania obejmują robotykę, pojazdy autonomiczne, optymalizację łańcucha dostaw, opiekę zdrowotną i gry, a wraz z rozwojem technologii liczba przypadków użycia stale rośnie.

Poprzez pełne udostępnienie wcześniej niedostępnych metodologii, DAPO i podobne inicjatywy open-source demokratyzują zaawansowane możliwości AI, umożliwiając naukowcom, startupom i firmom rozwijanie innowacji bez ograniczeń narzucanych przez systemy zamknięte.

Source:

DAPO: Przełom Open-Source Rewolucjonizuje Rozumowanie Sztucznej Inteligencji

Latest News

GitHub Copilot osiąga 20 milionów użytkowników i zmienia sposób pracy programistów

Imagen 4 Ultra od Google awansuje na trzecie miejsce w rankingu generowania obrazów przez AI

xAI Muska rozszerza Grok o sztuczną inteligencję wideo i wirtualnych towarzyszy

Fizyka napędza AI Moonvalley: od szkiców do filmowej rzeczywistości

Manus uruchamia rój 100 agentów AI do równoległych zadań badawczych

Rewolucja AI przekształca rynek nieruchomości: Transformacja branży wartej 40 miliardów dolarów

Meta rewolucjonizuje interakcję z AI dzięki asystentowi opartemu na Llama 4

Xiaomi prezentuje nową generację modelu głosowego AI dla inteligentnych domów i samochodów

Microsoft prezentuje agentów AI do walki z kryzysem produktywności w miejscu pracy

OpenAI zwraca się ku open source, gdy konkurencja przekształca krajobraz AI

DAPO: Przełom Open-Source Rewolucjonizuje Rozumowanie Sztucznej Inteligencji

Related Articles

GitHub Copilot osiąga 20 milionów użytkowników i zmienia sposób pracy programistów

xAI Muska rozszerza Grok o sztuczną inteligencję wideo i wirtualnych towarzyszy

Manus uruchamia rój 100 agentów AI do równoległych zadań badawczych

Rewolucja AI przekształca rynek nieruchomości: Transformacja branży wartej 40 miliardów dolarów

Xiaomi prezentuje nową generację modelu głosowego AI dla inteligentnych domów i samochodów

Latest News

GitHub Copilot osiąga 20 milionów użytkowników i zmienia sposób pracy programistów

Imagen 4 Ultra od Google awansuje na trzecie miejsce w rankingu generowania obrazów przez AI

xAI Muska rozszerza Grok o sztuczną inteligencję wideo i wirtualnych towarzyszy

Fizyka napędza AI Moonvalley: od szkiców do filmowej rzeczywistości

Manus uruchamia rój 100 agentów AI do równoległych zadań badawczych

Rewolucja AI przekształca rynek nieruchomości: Transformacja branży wartej 40 miliardów dolarów

Meta rewolucjonizuje interakcję z AI dzięki asystentowi opartemu na Llama 4

Xiaomi prezentuje nową generację modelu głosowego AI dla inteligentnych domów i samochodów

Microsoft prezentuje agentów AI do walki z kryzysem produktywności w miejscu pracy

OpenAI zwraca się ku open source, gdy konkurencja przekształca krajobraz AI