menu
close

DAPO: Avanço Open-Source Revoluciona o Raciocínio em IA

Investigadores da ByteDance e da Universidade de Tsinghua lançaram o DAPO, um sistema de aprendizagem por reforço totalmente open-source que atinge capacidades de raciocínio matemático de topo. O sistema supera modelos anteriores utilizando menos 50% de passos de treino e torna acessíveis à comunidade de IA detalhes técnicos anteriormente ocultos. Este avanço preenche a lacuna de transparência nos sistemas avançados de raciocínio em IA, promovendo maior inovação e reprodutibilidade.
DAPO: Avanço Open-Source Revoluciona o Raciocínio em IA

Num avanço significativo para a inteligência artificial open-source, investigadores da ByteDance e da Universidade de Tsinghua apresentaram o DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization), um sistema inovador de aprendizagem por reforço que alcança capacidades de raciocínio excecionais, dando prioridade à transparência e acessibilidade.

O DAPO surge como resposta direta à dificuldade da comunidade de IA em reproduzir resultados de aprendizagem por reforço de topo, devido à ocultação de detalhes técnicos por parte de grandes empresas do setor, como a OpenAI e a DeepSeek. A aprendizagem por reforço tornou-se central para o avanço dos Grandes Modelos de Linguagem (LLM), conferindo-lhes capacidades de raciocínio melhoradas, essenciais para tarefas complexas. No entanto, a comunidade científica enfrenta grandes desafios na reprodução de técnicas de RL de topo devido à divulgação incompleta de detalhes-chave de treino por parte dos principais intervenientes da indústria. Esta opacidade tem limitado o progresso científico e a investigação colaborativa.

O sistema atinge 50 pontos na exigente competição matemática AIME 2024, utilizando o modelo base Qwen2.5-32B. Ao contrário de trabalhos anteriores que ocultam detalhes de treino, o DAPO introduz quatro técnicas fundamentais que tornam o treino de LLMs em larga escala bem-sucedido. Adicionalmente, os investigadores disponibilizaram o código de treino, baseado na framework verl, juntamente com um conjunto de dados cuidadosamente selecionado e processado.

O que torna o DAPO particularmente impressionante é a sua eficiência. Supera o anterior estado da arte DeepSeek-R1-Zero-Qwen-32B, utilizando apenas 50% dos passos de treino. Esta eficiência resulta de quatro inovações centrais: A primeira, "Clip-Higher", resolve o problema do colapso de entropia, situação em que os modelos se fixam prematuramente em padrões de exploração limitados. Ao gerir cuidadosamente a razão de clipping nas atualizações de política, esta técnica incentiva maior diversidade nas saídas do modelo. O "Dynamic Sampling" combate ineficiências no treino ao filtrar dinamicamente amostras com base na sua utilidade, garantindo assim um sinal de gradiente mais consistente. O "Token-level Policy Gradient Loss" oferece um método de cálculo de perda mais refinado, enfatizando ajustes ao nível do token em vez do nível da amostra, para melhor acomodar sequências de raciocínio de diferentes comprimentos. Por fim, o "Overlong Reward Shaping" introduz uma penalização controlada para respostas excessivamente longas, orientando suavemente os modelos para um raciocínio mais conciso e eficiente.

O lançamento do DAPO surge numa altura de avanços notáveis no open-source para aprendizagem por reforço. Outro desenvolvimento relevante é o MiroMind-M1, uma pipeline totalmente open-source que abrange conjuntos de dados, modelos, código de treino e scripts de avaliação, estabelecendo novos padrões de abertura e raciocínio matemático de topo no ecossistema do modelo Qwen-2.5. O MiroMind-M1 baseia-se na robusta arquitetura Qwen-2.5, com melhorias específicas para raciocínio matemático.

O impacto destes desenvolvimentos na indústria é substancial, estando o setor da aprendizagem por reforço avaliado em mais de 122 mil milhões de dólares em 2025. As suas aplicações abrangem robótica, veículos autónomos, otimização de cadeias de abastecimento, saúde e gaming, com casos de uso a expandirem-se à medida que a tecnologia amadurece.

Ao tornar metodologias anteriormente inacessíveis totalmente transparentes, o DAPO e outras iniciativas open-source estão a democratizar capacidades avançadas de IA, permitindo que investigadores, startups e empresas estabelecidas possam construir sobre estas inovações sem as restrições dos sistemas proprietários.

Source:

Latest News