menu
close

DAPO: Прорыв в открытом исходном коде революционизирует ИИ-рассуждения

Исследователи из ByteDance и Университета Цинхуа представили DAPO — полностью открытый инструмент обучения с подкреплением, который демонстрирует передовые математические способности рассуждения. Система превосходит предыдущие модели, используя на 50% меньше шагов обучения, и делает ранее скрытые технические детали доступными для широкой ИИ-общественности. Этот прорыв сокращает разрыв в прозрачности между передовыми системами ИИ-рассуждения, способствуя инновациям и воспроизводимости.
DAPO: Прорыв в открытом исходном коде революционизирует ИИ-рассуждения

Важное достижение в области искусственного интеллекта с открытым исходным кодом представили исследователи из ByteDance и Университета Цинхуа, анонсировав DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization) — революционную систему обучения с подкреплением, которая сочетает выдающиеся способности к рассуждению с приоритетом прозрачности и доступности.

DAPO стала прямым ответом на проблему воспроизводимости передовых результатов обучения с подкреплением в ИИ-сообществе, вызванную скрытыми техническими деталями со стороны крупных игроков индустрии, таких как OpenAI и DeepSeek. Обучение с подкреплением стало ключевым элементом развития больших языковых моделей (LLM), наделяя их улучшенными способностями к рассуждению, необходимыми для решения сложных задач. Однако исследовательское сообщество сталкивается с серьезными трудностями при попытках воспроизвести передовые методы RL из-за неполного раскрытия ключевых деталей обучения со стороны ведущих компаний. Такая непрозрачность ограничивает прогресс научных исследований и сотрудничества.

Система достигает 50 баллов на сложной математической олимпиаде AIME 2024, используя базовую модель Qwen2.5-32B. В отличие от предыдущих работ, где детали обучения скрывались, DAPO внедряет четыре ключевые техники, обеспечивающие успех обучения LLM с подкреплением в крупном масштабе. Кроме того, исследователи открыли исходный код обучения на базе фреймворка verl и предоставили тщательно отобранный и обработанный датасет.

Особое впечатление производит эффективность DAPO. Она превосходит предыдущую передовую модель DeepSeek-R1-Zero-Qwen-32B, используя лишь 50% от количества шагов обучения. Такая эффективность достигается благодаря четырём основным инновациям: Первая — "Clip-Higher" — решает проблему коллапса энтропии, когда модели преждевременно ограничивают исследование пространства решений. Управляя коэффициентом обрезки при обновлении политики, эта техника способствует большему разнообразию выходных данных модели. "Динамическая выборка" (Dynamic Sampling) устраняет неэффективность обучения, динамически фильтруя примеры по их полезности, обеспечивая более стабильный градиент. "Потокеновая функция потерь по градиенту политики" (Token-level Policy Gradient Loss) предлагает более точный метод расчёта потерь, делая акцент на токенах, а не на примерах, что позволяет лучше учитывать различную длину рассуждений. Наконец, "Формирование награды за избыточную длину" (Overlong Reward Shaping) вводит контролируемое штрафование за чрезмерно длинные ответы, мягко направляя модель к лаконичным и эффективным рассуждениям.

Релиз DAPO происходит на фоне волны открытых достижений в обучении с подкреплением. Ещё одним заметным прорывом стала система MiroMind-M1, полностью открытая платформа, охватывающая датасеты, модели, код обучения и скрипты для оценки, которая устанавливает новые стандарты открытости и передовых математических рассуждений в экосистеме моделей Qwen-2.5. MiroMind-M1 построена на мощной архитектуре Qwen-2.5 с улучшениями, специально ориентированными на математические задачи.

Влияние этих разработок на индустрию значительное: ожидается, что рынок обучения с подкреплением превысит $122 млрд уже в 2025 году. Применение охватывает робототехнику, автономные транспортные средства, оптимизацию цепочек поставок, здравоохранение и игровую индустрию, а сферы использования расширяются по мере развития технологии.

Благодаря полной прозрачности ранее недоступных методик, DAPO и аналогичные инициативы с открытым исходным кодом демократизируют передовые ИИ-возможности, позволяя исследователям, стартапам и крупным компаниям развивать эти инновации без ограничений проприетарных систем.

Source:

Latest News