DAPO: Революционный Алгоритм Обучения от ByteDance! 🌟
Вы знаете, когда жизнь подкидывает вам невероятные вещи? Вот именно так я и себя чувствую после того, как узнал о проекте DAPO, разработанном компанией ByteDance. Этот алгоритм обучения с подкреплением (RL) для языковых моделей — словно свет в конце туннеля, или очередная версия «Звездных войн», когда сообщение приходит с одной планеты к другой, но с невероятными обновлениями! 🎉
ByteDance выпустила техотчет и код DAPO, и, поверьте, это не просто набор алгоритмов. Это целый арсенал инновационных подходов, которые могут изменить правила игры. Кажется, что обычные методы RL стали устаревшими, как VHS-кассеты, ведь DAPO берет на себя все сложности, с которыми сталкиваются разработчики.
Как же DAPO решает проблемы традиционного обучения?
Во-первых, давайте поговорим о коллапсе энтропии, который был проблемой для таких алгоритмов, как PPO и GRPO. Тут на помощь приходит Clip-Higher! Этот метод разделяет диапазон клиппинга на два уровня (низкий и высокий), что похоже на переключение между режимами игры в видеоиграх. Благодаря этому разнообразие токенов увеличивается, а вероятность застрять в локальном оптимуме снижается. Круто, правда?
Следующий герой нашего повествования — Dynamic Sampling. Этот метод устраняет "мертвые зоны" — те группы ответов, где все застыли в одном (0 или 1). Dynamic Sampling добавляет в батч хотя бы один правильный и один неправильный ответ, что действительно похоже на то, как внедрение конкуренции в бизнес может привести к инновациям! В результате — время сходимости сокращается на 20-30%. Это как получить премию за ранний успех, не так ли?
Блиц по инновациям: Token-Level Policy Gradient Loss и Overlong Reward Shaping
Давайте также упомянем Token-Level Policy Gradient Loss. Этот метод взвешивает каждый токен в длинных ответах, как будто мы взвешиваем наши идеи перед важной презентацией. Звучит круто, не правда ли? Это гарантирует, что модель не подавляет важные паттерны при генерации ответов. Например, представьте себе, что наш длинный ответ состоит из 100 токенов, и он имеет большее влияние на обучение, чем короткий ответ из 20. Это как если бы вы отдали голос за самого крутого человека на вечеринке!
За этим следует Overlong Reward Shaping, который переводит систему штрафов из «юнит на платформе» на более градуированный подход. Ответы до 16К токенов получают поощрение, а длинные ответы на границе 16-20К потихоньку наказываются. Это похоже на то, как ваш тренер по фитнесу похвалит вас, если вы доберётесь до одного километра, а затем немного накажет, если вы решите пробежать два. Умно, не так ли?
Эксперименты и Результаты
Не могу не упомянуть об экспериментально обученной Qwen2.5-32B. Она смогла достичь рекордных 50 баллов на тесте AIME 2024, обойдя своих конкурентов с меньшим количеством шагов обучения. Как говорит мой друг, "если у вас есть скорость и результат, вы в игре!" 🔥 А еще, отказ от штрафа за расхождение Кульбака-Лейблера — это как дать вам больше свободы в действиях, чтобы развивать более сложные умозаключения.
И, конечно, проект DAPO стал доступен в опенсорсном формате на GitHub. Это означает, что вы можете попробовать сами — разве не замечательно, когда возможности открыты для всех?
Если вы ищете больше информации, обратитесь к странице проекта, Arxiv, или же загляните на GitHub. Вам не нужно быть гением, чтобы начать, просто используйте специальный скрипт для обучения с предоставленными датасетами DAPO-Math-17k и валидационным набором AIME 2024.
@ai_machinelearning_big_data, спасибо за классный контент и за возможность погрузиться в мир DAPO!
#AI #ML #LLM #RL #ByteDance #DAPO

DAPO: Революционный RL-Алгоритм для Языковых Моделей от ByteDance! ver 0
Ширина: 1200 px
Высота: 552 px
Соотношение сторон.: 50:23
Скачать

DAPO: Революционный RL-Алгоритм для Языковых Моделей от ByteDance! ver 1
Ширина: 1280 px
Высота: 640 px
Соотношение сторон.: 2:1
Скачать

DAPO: Революционный RL-Алгоритм для Языковых Моделей от ByteDance! ver 2
Ширина: 2560 px
Высота: 1024 px
Соотношение сторон.: 5:2
Скачать
Вам также может понравиться






















