DAPO: Avanço Open-Source Revoluciona o Raciocínio em IA

Investigadores da ByteDance e da Universidade de Tsinghua lançaram o DAPO, um sistema de aprendizagem por reforço totalmente open-source que atinge capacidades de raciocínio matemático de topo. O sistema supera modelos anteriores utilizando menos 50% de passos de treino e torna acessíveis à comunidade de IA detalhes técnicos anteriormente ocultos. Este avanço preenche a lacuna de transparência nos sistemas avançados de raciocínio em IA, promovendo maior inovação e reprodutibilidade.

Num avanço significativo para a inteligência artificial open-source, investigadores da ByteDance e da Universidade de Tsinghua apresentaram o DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization), um sistema inovador de aprendizagem por reforço que alcança capacidades de raciocínio excecionais, dando prioridade à transparência e acessibilidade.

O DAPO surge como resposta direta à dificuldade da comunidade de IA em reproduzir resultados de aprendizagem por reforço de topo, devido à ocultação de detalhes técnicos por parte de grandes empresas do setor, como a OpenAI e a DeepSeek. A aprendizagem por reforço tornou-se central para o avanço dos Grandes Modelos de Linguagem (LLM), conferindo-lhes capacidades de raciocínio melhoradas, essenciais para tarefas complexas. No entanto, a comunidade científica enfrenta grandes desafios na reprodução de técnicas de RL de topo devido à divulgação incompleta de detalhes-chave de treino por parte dos principais intervenientes da indústria. Esta opacidade tem limitado o progresso científico e a investigação colaborativa.

O sistema atinge 50 pontos na exigente competição matemática AIME 2024, utilizando o modelo base Qwen2.5-32B. Ao contrário de trabalhos anteriores que ocultam detalhes de treino, o DAPO introduz quatro técnicas fundamentais que tornam o treino de LLMs em larga escala bem-sucedido. Adicionalmente, os investigadores disponibilizaram o código de treino, baseado na framework verl, juntamente com um conjunto de dados cuidadosamente selecionado e processado.

O que torna o DAPO particularmente impressionante é a sua eficiência. Supera o anterior estado da arte DeepSeek-R1-Zero-Qwen-32B, utilizando apenas 50% dos passos de treino. Esta eficiência resulta de quatro inovações centrais: A primeira, "Clip-Higher", resolve o problema do colapso de entropia, situação em que os modelos se fixam prematuramente em padrões de exploração limitados. Ao gerir cuidadosamente a razão de clipping nas atualizações de política, esta técnica incentiva maior diversidade nas saídas do modelo. O "Dynamic Sampling" combate ineficiências no treino ao filtrar dinamicamente amostras com base na sua utilidade, garantindo assim um sinal de gradiente mais consistente. O "Token-level Policy Gradient Loss" oferece um método de cálculo de perda mais refinado, enfatizando ajustes ao nível do token em vez do nível da amostra, para melhor acomodar sequências de raciocínio de diferentes comprimentos. Por fim, o "Overlong Reward Shaping" introduz uma penalização controlada para respostas excessivamente longas, orientando suavemente os modelos para um raciocínio mais conciso e eficiente.

O lançamento do DAPO surge numa altura de avanços notáveis no open-source para aprendizagem por reforço. Outro desenvolvimento relevante é o MiroMind-M1, uma pipeline totalmente open-source que abrange conjuntos de dados, modelos, código de treino e scripts de avaliação, estabelecendo novos padrões de abertura e raciocínio matemático de topo no ecossistema do modelo Qwen-2.5. O MiroMind-M1 baseia-se na robusta arquitetura Qwen-2.5, com melhorias específicas para raciocínio matemático.

O impacto destes desenvolvimentos na indústria é substancial, estando o setor da aprendizagem por reforço avaliado em mais de 122 mil milhões de dólares em 2025. As suas aplicações abrangem robótica, veículos autónomos, otimização de cadeias de abastecimento, saúde e gaming, com casos de uso a expandirem-se à medida que a tecnologia amadurece.

Ao tornar metodologias anteriormente inacessíveis totalmente transparentes, o DAPO e outras iniciativas open-source estão a democratizar capacidades avançadas de IA, permitindo que investigadores, startups e empresas estabelecidas possam construir sobre estas inovações sem as restrições dos sistemas proprietários.

Source:

DAPO: Avanço Open-Source Revoluciona o Raciocínio em IA

Latest News

GitHub Copilot Atinge 20 Milhões de Utilizadores e Transforma Fluxos de Trabalho dos Programadores

Imagen 4 Ultra da Google Sobe ao Terceiro Lugar no Ranking de Geração de Imagens por IA

xAI de Musk Expande Grok com IA de Vídeo e Companheiros Virtuais

A IA Orientada pela Física da Moonvalley Transforma Esboços em Realidade Cinematográfica

Manus Lança Enxame de 100 Agentes de IA para Tarefas de Investigação em Paralelo

Revolução da IA está a Remodelar o Imobiliário: Transformação de uma Indústria de 40 Mil Milhões de Dólares

Meta Revoluciona a Interação com IA com Assistente Potenciado pelo Llama 4

Xiaomi Apresenta Modelo de Voz IA de Próxima Geração para Casas Inteligentes e Automóveis

Microsoft Apresenta Agentes de IA para Combater Crise de Produtividade no Trabalho

OpenAI Adota Open-Source à Medida que a Concorrência Redefine o Panorama da IA

DAPO: Avanço Open-Source Revoluciona o Raciocínio em IA

Related Articles

GitHub Copilot Atinge 20 Milhões de Utilizadores e Transforma Fluxos de Trabalho dos Programadores

xAI de Musk Expande Grok com IA de Vídeo e Companheiros Virtuais

Manus Lança Enxame de 100 Agentes de IA para Tarefas de Investigação em Paralelo

Revolução da IA está a Remodelar o Imobiliário: Transformação de uma Indústria de 40 Mil Milhões de Dólares

Xiaomi Apresenta Modelo de Voz IA de Próxima Geração para Casas Inteligentes e Automóveis

Latest News

GitHub Copilot Atinge 20 Milhões de Utilizadores e Transforma Fluxos de Trabalho dos Programadores

Imagen 4 Ultra da Google Sobe ao Terceiro Lugar no Ranking de Geração de Imagens por IA

xAI de Musk Expande Grok com IA de Vídeo e Companheiros Virtuais

A IA Orientada pela Física da Moonvalley Transforma Esboços em Realidade Cinematográfica

Manus Lança Enxame de 100 Agentes de IA para Tarefas de Investigação em Paralelo

Revolução da IA está a Remodelar o Imobiliário: Transformação de uma Indústria de 40 Mil Milhões de Dólares

Meta Revoluciona a Interação com IA com Assistente Potenciado pelo Llama 4

Xiaomi Apresenta Modelo de Voz IA de Próxima Geração para Casas Inteligentes e Automóveis

Microsoft Apresenta Agentes de IA para Combater Crise de Produtividade no Trabalho

OpenAI Adota Open-Source à Medida que a Concorrência Redefine o Panorama da IA