menu
close

DAPO: 오픈소스 혁신이 AI 추론을 혁명적으로 변화시키다

바이트댄스와 칭화대학교 연구진이 최첨단 수학적 추론 능력을 갖춘 완전 오픈소스 강화학습 시스템 DAPO를 공개했다. 이 시스템은 기존 모델 대비 50% 적은 학습 단계로 더 뛰어난 성능을 보이며, 그간 비공개였던 기술적 세부사항을 AI 커뮤니티에 모두 공개했다. 이번 혁신은 첨단 AI 추론 시스템의 투명성 격차를 해소하며, 더 넓은 혁신과 재현성을 가능하게 한다.
DAPO: 오픈소스 혁신이 AI 추론을 혁명적으로 변화시키다

오픈소스 인공지능 분야에서 중대한 진전을 이루며, 바이트댄스와 칭화대학교 연구진이 DAPO(Decoupled Clip and Dynamic sAmpling Policy Optimization)를 공개했다. DAPO는 투명성과 접근성을 최우선으로 하면서도 탁월한 추론 능력을 달성한 혁신적인 강화학습 시스템이다.

DAPO는 OpenAI, DeepSeek 등 주요 산업체가 핵심 기술 세부사항을 비공개함에 따라, AI 커뮤니티가 최첨단 강화학습 결과를 재현하는 데 겪었던 어려움에 대한 직접적인 해답이다. 강화학습은 대형 언어모델(LLM)의 발전을 이끄는 핵심 기술로, 복잡한 과제에 필요한 추론 능력을 크게 향상시킨다. 그러나 주요 산업체가 핵심 학습 세부사항을 완전히 공개하지 않아, 연구 커뮤니티는 최첨단 강화학습 기술을 재현하는 데 상당한 어려움을 겪어왔다. 이러한 불투명성은 과학적 진보와 협업 연구의 발전을 제한해왔다.

DAPO는 Qwen2.5-32B 기반 모델로 AIME 2024 수학 경진대회에서 50점을 기록했다. 기존 연구들이 학습 세부사항을 비공개한 것과 달리, DAPO는 대규모 LLM 강화학습을 성공적으로 이끄는 네 가지 핵심 기법을 도입했다. 또한 연구진은 verl 프레임워크 기반의 학습 코드와 엄선·가공된 데이터셋을 모두 오픈소스로 공개했다.

DAPO의 가장 큰 강점은 효율성이다. 이 시스템은 기존 최고 성능의 DeepSeek-R1-Zero-Qwen-32B를 50% 적은 학습 단계로 능가한다. 이러한 효율성은 네 가지 핵심 혁신에서 비롯된다: 첫째, "Clip-Higher"는 모델이 조기 수렴해 탐색 다양성이 줄어드는 엔트로피 붕괴 문제를 해결한다. 정책 업데이트 시 클리핑 비율을 정교하게 조정해, 모델 출력의 다양성을 높인다. 둘째, "Dynamic Sampling"은 샘플의 유용성에 따라 동적으로 필터링하여, 일관된 그래디언트 신호를 유지하고 학습 비효율을 줄인다. 셋째, "Token-level Policy Gradient Loss"는 샘플 단위가 아닌 토큰 단위로 손실을 계산해, 다양한 길이의 추론 시퀀스에 더 적합하게 조정한다. 마지막으로 "Overlong Reward Shaping"은 과도하게 긴 응답에 대해 제어된 패널티를 부여해, 모델이 간결하고 효율적으로 추론하도록 유도한다.

DAPO의 공개는 오픈소스 강화학습 분야의 혁신이 이어지는 가운데 이루어졌다. 또 다른 주목할 만한 진전은 MiroMind-M1이다. MiroMind-M1은 데이터셋, 모델, 학습 코드, 평가 스크립트까지 모두 오픈소스로 제공하며, Qwen-2.5 모델 생태계 내에서 개방성과 최첨단 수학적 추론의 새로운 기준을 제시한다. MiroMind-M1은 Qwen-2.5의 강력한 백본을 기반으로, 수학적 추론에 특화된 개선이 이루어졌다.

이러한 발전의 산업적 파급력은 상당하다. 강화학습 시장은 2025년 1,220억 달러 이상으로 평가되며, 로보틱스, 자율주행차, 공급망 최적화, 헬스케어, 게임 등 다양한 분야에 적용되고 있다. 기술이 성숙함에 따라 활용 사례도 계속 확대되고 있다.

이처럼 기존에는 접근할 수 없었던 방법론을 완전히 투명하게 공개함으로써, DAPO와 같은 오픈소스 혁신은 첨단 AI 역량의 민주화를 이끌고 있다. 연구자, 스타트업, 대기업 모두가 독점 시스템의 제약 없이 이러한 혁신을 바탕으로 새로운 발전을 이룰 수 있게 되었다.

Source:

Latest News