menu
close

DAPO: Un avance de código abierto revoluciona el razonamiento de la IA

Investigadores de ByteDance y la Universidad de Tsinghua han presentado DAPO, un sistema de aprendizaje por refuerzo completamente de código abierto que alcanza capacidades de razonamiento matemático de vanguardia. El sistema supera a modelos anteriores utilizando un 50% menos de pasos de entrenamiento y pone a disposición de la comunidad de IA detalles técnicos previamente ocultos. Este avance aborda la falta de transparencia en los sistemas avanzados de razonamiento de IA, facilitando una mayor innovación y reproducibilidad.
DAPO: Un avance de código abierto revoluciona el razonamiento de la IA

En un avance significativo para la inteligencia artificial de código abierto, investigadores de ByteDance y la Universidad de Tsinghua han presentado DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization), un sistema pionero de aprendizaje por refuerzo que logra capacidades de razonamiento excepcionales, priorizando la transparencia y la accesibilidad.

DAPO responde directamente a la dificultad de la comunidad de IA para reproducir resultados de aprendizaje por refuerzo de vanguardia debido a la ocultación de detalles técnicos por parte de grandes actores del sector como OpenAI y DeepSeek. El aprendizaje por refuerzo se ha convertido en un pilar fundamental para el avance de los grandes modelos de lenguaje (LLM), dotándolos de mejores capacidades de razonamiento necesarias para tareas complejas. Sin embargo, la comunidad investigadora se enfrenta a grandes retos para reproducir técnicas de RL punteras debido a la divulgación incompleta de detalles clave de entrenamiento por parte de los principales actores del sector. Esta opacidad ha limitado el progreso de los esfuerzos científicos y la investigación colaborativa.

El sistema alcanza 50 puntos en la exigente competición matemática AIME 2024 utilizando el modelo base Qwen2.5-32B. A diferencia de trabajos anteriores que reservan detalles de entrenamiento, DAPO introduce cuatro técnicas clave que hacen posible el aprendizaje por refuerzo a gran escala en LLM. Además, los investigadores han publicado el código de entrenamiento, basado en el framework verl, junto con un conjunto de datos cuidadosamente seleccionado y procesado.

Lo que hace especialmente impresionante a DAPO es su eficiencia. Supera al anterior estado del arte DeepSeek-R1-Zero-Qwen-32B utilizando solo el 50% de los pasos de entrenamiento. Esta eficiencia se basa en cuatro innovaciones principales: La primera, "Clip-Higher", aborda el problema del colapso de entropía, una situación en la que los modelos se conforman prematuramente con patrones de exploración limitados. Al gestionar cuidadosamente el ratio de recorte en las actualizaciones de la política, esta técnica fomenta una mayor diversidad en las salidas del modelo. "Dynamic Sampling" contrarresta las ineficiencias en el entrenamiento filtrando dinámicamente las muestras según su utilidad, asegurando así una señal de gradiente más consistente. La "Pérdida de Gradiente de Política a Nivel de Token" ofrece un método de cálculo de la pérdida más refinado, enfatizando los ajustes a nivel de token en lugar de a nivel de muestra, para adaptarse mejor a las distintas longitudes de las secuencias de razonamiento. Por último, el "Modelado de Recompensa por Respuestas Excesivamente Largas" introduce una penalización controlada para respuestas demasiado extensas, guiando suavemente a los modelos hacia razonamientos más concisos y eficientes.

La publicación de DAPO se produce en un momento de auge de los avances de código abierto en aprendizaje por refuerzo. Otro avance destacado es MiroMind-M1, una pipeline completamente abierta que abarca conjuntos de datos, modelos, código de entrenamiento y scripts de evaluación, estableciendo nuevos estándares de apertura y razonamiento matemático de vanguardia dentro del ecosistema del modelo Qwen-2.5. MiroMind-M1 se basa en la robusta arquitectura Qwen-2.5, con mejoras orientadas específicamente al razonamiento matemático.

El impacto de estos desarrollos en la industria es considerable, con el sector del aprendizaje por refuerzo valorado en más de 122.000 millones de dólares para 2025. Sus aplicaciones abarcan la robótica, vehículos autónomos, optimización de cadenas de suministro, sanidad y videojuegos, con casos de uso en expansión a medida que la tecnología madura.

Al hacer totalmente transparentes metodologías antes inaccesibles, DAPO y otras iniciativas de código abierto están democratizando las capacidades avanzadas de la IA, permitiendo a investigadores, startups y empresas consolidadas construir sobre estas innovaciones sin las restricciones de los sistemas propietarios.

Source:

Latest News