Em um avanço significativo para a inteligência artificial open source, pesquisadores da ByteDance e da Universidade Tsinghua apresentaram o DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization), um sistema inovador de aprendizado por reforço que alcança capacidades excepcionais de raciocínio, priorizando transparência e acessibilidade.
O DAPO surge como uma resposta direta à dificuldade da comunidade de IA em reproduzir resultados de ponta em aprendizado por reforço, devido à ocultação de detalhes técnicos por grandes empresas do setor, como OpenAI e DeepSeek. O aprendizado por reforço tornou-se central para o avanço dos Grandes Modelos de Linguagem (LLMs), conferindo-lhes melhores capacidades de raciocínio necessárias para tarefas complexas. No entanto, a comunidade de pesquisa enfrenta desafios consideráveis para reproduzir técnicas de RL de ponta devido à divulgação incompleta de detalhes-chave de treinamento pelas principais empresas do setor. Essa falta de transparência limita o progresso de esforços científicos mais amplos e pesquisas colaborativas.
O sistema atinge 50 pontos na desafiadora competição matemática AIME 2024 utilizando o modelo base Qwen2.5-32B. Diferentemente de trabalhos anteriores que omitem detalhes de treinamento, o DAPO apresenta quatro técnicas fundamentais que tornam o aprendizado por reforço em LLMs de larga escala bem-sucedido. Além disso, os pesquisadores disponibilizaram o código de treinamento, baseado no framework verl, juntamente com um conjunto de dados cuidadosamente selecionado e processado.
O que torna o DAPO particularmente impressionante é sua eficiência. Ele supera o anterior estado da arte DeepSeek-R1-Zero-Qwen-32B utilizando apenas 50% das etapas de treinamento. Essa eficiência resulta de quatro inovações centrais: A primeira, "Clip-Higher", resolve o problema do colapso de entropia, situação em que modelos se acomodam prematuramente em padrões limitados de exploração. Ao gerenciar cuidadosamente a razão de clipping nas atualizações de política, essa técnica incentiva maior diversidade nas saídas do modelo. O "Dynamic Sampling" combate ineficiências no treinamento ao filtrar dinamicamente amostras com base em sua utilidade, garantindo assim um sinal de gradiente mais consistente. O "Token-level Policy Gradient Loss" oferece um método refinado de cálculo de perda, enfatizando ajustes no nível de token em vez de amostra, para melhor acomodar diferentes comprimentos de sequências de raciocínio. Por fim, o "Overlong Reward Shaping" introduz uma penalidade controlada para respostas excessivamente longas, guiando suavemente os modelos para um raciocínio mais conciso e eficiente.
O lançamento do DAPO ocorre em meio a uma onda de avanços open source em aprendizado por reforço. Outro destaque é o MiroMind-M1, um pipeline totalmente open source que abrange conjuntos de dados, modelos, código de treinamento e scripts de avaliação, estabelecendo novos padrões de abertura e raciocínio matemático de ponta no ecossistema do modelo Qwen-2.5. O MiroMind-M1 é construído sobre a robusta base do Qwen-2.5, com aprimoramentos voltados explicitamente para o raciocínio matemático.
O impacto dessas inovações na indústria é substancial, com o setor de aprendizado por reforço estimado em mais de US$ 122 bilhões em 2025. Suas aplicações abrangem robótica, veículos autônomos, otimização de cadeias de suprimentos, saúde e jogos, com casos de uso se expandindo à medida que a tecnologia amadurece.
Ao tornar metodologias antes inacessíveis totalmente transparentes, o DAPO e iniciativas open source semelhantes estão democratizando capacidades avançadas de IA, permitindo que pesquisadores, startups e empresas consolidadas construam sobre essas inovações sem as restrições de sistemas proprietários.