menu
close

DAPO: Avance de Código Abierto Revoluciona el Razonamiento en IA

Investigadores de ByteDance y la Universidad de Tsinghua han lanzado DAPO, un sistema de aprendizaje por refuerzo completamente de código abierto que logra capacidades de razonamiento matemático de última generación. El sistema supera a modelos anteriores utilizando un 50% menos de pasos de entrenamiento y hace accesibles detalles técnicos previamente ocultos a la comunidad de IA en general. Este avance aborda la brecha de transparencia en los sistemas avanzados de razonamiento en IA, permitiendo una mayor innovación y reproducibilidad.
DAPO: Avance de Código Abierto Revoluciona el Razonamiento en IA

En un avance significativo para la inteligencia artificial de código abierto, investigadores de ByteDance y la Universidad de Tsinghua han presentado DAPO (Optimización de Política de Recorte Desacoplado y Muestreo Dinámico), un innovador sistema de aprendizaje por refuerzo que alcanza capacidades de razonamiento excepcionales, priorizando la transparencia y accesibilidad.

DAPO responde directamente a la dificultad de la comunidad de IA para reproducir resultados de aprendizaje por refuerzo de última generación debido a detalles técnicos ocultos por actores principales de la industria como OpenAI y DeepSeek. El aprendizaje por refuerzo se ha vuelto central para el avance de los Grandes Modelos de Lenguaje (LLMs), dotándolos de mejores capacidades de razonamiento necesarias para tareas complejas. Sin embargo, la comunidad investigadora enfrenta grandes desafíos para reproducir técnicas de aprendizaje por refuerzo de vanguardia debido a la divulgación incompleta de detalles clave de entrenamiento por parte de los principales actores de la industria. Esta opacidad ha limitado el progreso de los esfuerzos científicos y la investigación colaborativa.

El sistema logra 50 puntos en la exigente competencia matemática AIME 2024 utilizando el modelo base Qwen2.5-32B. A diferencia de trabajos previos que reservan detalles de entrenamiento, DAPO introduce cuatro técnicas clave que hacen exitoso el aprendizaje por refuerzo a gran escala en LLMs. Además, los investigadores han liberado su código de entrenamiento, construido sobre el framework verl, junto con un conjunto de datos cuidadosamente curado y procesado.

Lo que hace especialmente impresionante a DAPO es su eficiencia. Supera al anterior modelo de referencia DeepSeek-R1-Zero-Qwen-32B usando solo el 50% de los pasos de entrenamiento. Esta eficiencia proviene de cuatro innovaciones principales: La primera, "Clip-Higher", aborda el problema del colapso de entropía, una situación donde los modelos se conforman prematuramente con patrones de exploración limitados. Al gestionar cuidadosamente la proporción de recorte en las actualizaciones de política, esta técnica fomenta una mayor diversidad en las salidas del modelo. "Dynamic Sampling" contrarresta ineficiencias en el entrenamiento filtrando dinámicamente las muestras según su utilidad, asegurando así una señal de gradiente más consistente. La "Pérdida de Gradiente de Política a Nivel de Token" ofrece un método de cálculo de pérdida refinado, enfatizando ajustes a nivel de token en lugar de nivel de muestra para adaptarse mejor a secuencias de razonamiento de diferentes longitudes. Finalmente, el "Modelado de Recompensa por Respuestas Excesivamente Largas" introduce una penalización controlada para respuestas demasiado extensas, guiando suavemente a los modelos hacia razonamientos más concisos y eficientes.

El lanzamiento de DAPO llega en medio de una oleada de avances de código abierto en aprendizaje por refuerzo. Otro avance notable es MiroMind-M1, una canalización completamente de código abierto que abarca conjuntos de datos, modelos, código de entrenamiento y scripts de evaluación, estableciendo nuevos estándares de apertura y razonamiento matemático de vanguardia dentro del ecosistema del modelo Qwen-2.5. MiroMind-M1 está construido sobre la sólida base de Qwen-2.5, con mejoras orientadas explícitamente al razonamiento matemático.

El impacto de estos desarrollos en la industria es sustancial, con el sector de aprendizaje por refuerzo valorado en más de 122 mil millones de dólares para 2025. Sus aplicaciones abarcan robótica, vehículos autónomos, optimización de cadenas de suministro, salud y videojuegos, con casos de uso en expansión a medida que la tecnología madura.

Al hacer completamente transparentes metodologías antes inaccesibles, DAPO y otras iniciativas de código abierto están democratizando las capacidades avanzadas de IA, permitiendo que investigadores, startups y empresas consolidadas construyan sobre estas innovaciones sin las restricciones de sistemas propietarios.

Source:

Latest News