menu
close

DAPO: Прорив з відкритим кодом революціонізує логічні можливості ШІ

Дослідники з ByteDance та Університету Цінхуа представили DAPO — повністю відкриту систему навчання з підкріпленням, яка досягає найсучасніших математичних логічних можливостей. Система перевершує попередні моделі, використовуючи на 50% менше навчальних кроків, і робить раніше приховані технічні деталі доступними для ширшої спільноти ШІ. Це досягнення усуває розрив у прозорості передових систем логічного мислення ШІ, сприяючи ширшій інноваційності та відтворюваності.
DAPO: Прорив з відкритим кодом революціонізує логічні можливості ШІ

У значному прориві для відкритого штучного інтелекту дослідники з ByteDance та Університету Цінхуа презентували DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization) — революційну систему навчання з підкріпленням, яка забезпечує виняткові логічні можливості, роблячи акцент на прозорості та доступності.

DAPO є прямою відповіддю на проблему спільноти ШІ з відтворенням найсучасніших результатів навчання з підкріпленням через приховані технічні деталі від провідних гравців індустрії, таких як OpenAI та DeepSeek. Навчання з підкріпленням стало ключовим для розвитку великих мовних моделей (LLM), надаючи їм покращені логічні можливості, необхідні для складних завдань. Однак дослідницька спільнота стикається зі значними труднощами у відтворенні найкращих технік RL через неповне розкриття важливих деталей навчання з боку основних компаній. Така непрозорість гальмує прогрес ширших наукових досліджень і колаборацій.

Система досягає 50 балів на складному математичному конкурсі AIME 2024, використовуючи базову модель Qwen2.5-32B. На відміну від попередніх робіт, які приховують деталі навчання, DAPO впроваджує чотири ключові техніки, що забезпечують успіх навчання LLM з підкріпленням у великому масштабі. Крім того, дослідники відкрили вихідний код навчання, побудований на фреймворку verl, а також ретельно підібраний і оброблений набір даних.

Особливо вражає ефективність DAPO. Вона перевершує попередній найкращий DeepSeek-R1-Zero-Qwen-32B, використовуючи лише 50% навчальних кроків. Така ефективність досягається завдяки чотирьом основним інноваціям: Перша — "Clip-Higher" — вирішує проблему колапсу ентропії, коли моделі передчасно обмежують різноманітність дослідження. Завдяки ретельному керуванню коефіцієнтом обрізання під час оновлення політики ця техніка стимулює більшу різноманітність у відповідях моделі. "Динамічне вибіркове навчання" (Dynamic Sampling) усуває неефективність тренування, динамічно відбираючи зразки за їхньою корисністю, що забезпечує стабільніший градієнт. "Втрата політики на рівні токенів" (Token-level Policy Gradient Loss) пропонує вдосконалений метод обчислення втрат, акцентуючи увагу на токенах, а не на зразках, краще враховуючи різну довжину логічних послідовностей. Нарешті, "Формування винагороди за надмірну довжину" (Overlong Reward Shaping) вводить контрольоване покарання за надто довгі відповіді, м’яко спрямовуючи моделі до лаконічних і ефективних міркувань.

Випуск DAPO відбувається на тлі хвилі проривів у відкритому навчанні з підкріпленням. Ще одним важливим досягненням є MiroMind-M1, повністю відкрита платформа, що охоплює набори даних, моделі, вихідний код для навчання та скрипти для оцінки, встановлюючи нові стандарти відкритості та математичного логічного мислення в екосистемі моделей Qwen-2.5. MiroMind-M1 побудований на потужній основі Qwen-2.5 із покращеннями, спрямованими саме на математичне мислення.

Вплив цих розробок на індустрію є значним: сектор навчання з підкріпленням оцінюється у понад $122 мільярди у 2025 році. Застосування охоплює робототехніку, автономний транспорт, оптимізацію ланцюгів постачання, охорону здоров’я та ігрову індустрію, а сфери використання розширюються зі зрілістю технології.

Завдяки повній прозорості раніше недоступних методологій DAPO та подібні відкриті ініціативи демократизують передові можливості ШІ, дозволяючи дослідникам, стартапам і великим компаніям розвивати ці інновації без обмежень закритих систем.

Source:

Latest News