Новый взгляд на моделирование вознаграждения: DeepSeek-GRM
С каждой неделей мир технологий продолжает удивлять, и вот на горизонте появляется новая звёздочка — DeepSeek-GRM. Команда DeepSeek решила, что обычные системы моделирования вознаграждения (RM) в XXI веке — это просто нечто устаревшее. Они предлагают нам свежий взгляд на технологии, обещая улучшить согласованность больших языковых моделей (LLM) с нашими запросами.
Принципы на которых строится DeepSeek-GRM
Давайте разберёмся, в чём же суть! Главная идея системы — использовать дополнительные вычислительные ресурсы во время инференса. Это не просто набор формул и алгоритмов, а динамическое улучшение и масштабирование оценки вознаграждения, которое значительно отклоняется от утрированно статичных RM, к которым мы все привыкли. А это означает, что несколько чисел больше не решают всех проблем.
Как это работает?
Теперь подробнее о «волшебстве»! DeepSeek-GRM соединяет несколько мощных компонентов в одном. Это генеративное моделирование вознаграждения (GRM), обучение по методу Self-Principled Critique Tuning (SPCT) и, конечно же, умные хитрости вроде параллельного сэмплинга и голосования во время инференса. SPCT позволяет модели не просто следовать заданным критериям, а самостоятельно формулировать принципы оценки и генерировать критику при помощи методов обучения с подкреплением (RL). Вот это уже звучит впечатляюще, не правда ли?
Результаты, которые говорят сами за себя
Теперь о том, насколько DeepSeek-GRM крут. Он не просто обходит существующие базовые модели на RM-бенчмарках, но и делает это, не теряя в качестве. DeepSeek-GRM с архитектурой 27 миллиардов параметров показывает результаты, близкие к статусу SOTA (State of the Art), и делает это более эффективно, чем его «ребята-братишки» с запредельными размерами моделей. Это важно! Не нужно навязывать гигантские модели ради мифа о «большом брате» — результат можно получить и с разумным расходом ресурсов.
Несмотря на то, что LLM-as-a-Judge демонстрирует схожие результаты, у него ниже производительность. Одно из самых интересных направлений, которое продвигает DeepSeek — это перенос части «интеллекта» оценки на этап инференса, что поднимает качество моделей на новый уровень.
Мысли вслух
DeepSeek-GRM открывает новые горизонты в области моделирования вознаграждений и может стать важным инструментом для будущего развертывания больших языковых моделей. Это бухта свежего воздуха в том мире, где статические модели больше не могут справляться с динамично меняющимися запросами пользователей. Замечаете ли вы, как быстро технологии развиваются? Надеюсь, что с таким подходом мы увидим новые высоты и, наконец, модели, которые действительно понимают и живут в среде, где они существуют.
В общем, следим за развитием событий!

DeepSeek-GRM: Прорыв в моделировании вознаграждений для LLM ver 0
Ширина: 1280 px
Высота: 659 px
Соотношение сторон.: 1280:659
Скачать

DeepSeek-GRM: Прорыв в моделировании вознаграждений для LLM ver 1
Ширина: 1280 px
Высота: 748 px
Соотношение сторон.: 320:187
Скачать

DeepSeek-GRM: Прорыв в моделировании вознаграждений для LLM ver 2
Ширина: 1280 px
Высота: 856 px
Соотношение сторон.: 160:107
Скачать

DeepSeek-GRM: Прорыв в моделировании вознаграждений для LLM ver 3
Ширина: 1280 px
Высота: 794 px
Соотношение сторон.: 640:397
Скачать

DeepSeek-GRM: Прорыв в моделировании вознаграждений для LLM ver 4
Ширина: 1280 px
Высота: 962 px
Соотношение сторон.: 640:481
Скачать
Вам также может понравиться





















