Новый взгляд на моделирование вознаграждения с DeepSeek-GRM

Новый взгляд на моделирование вознаграждения: DeepSeek-GRM

С каждой неделей мир технологий продолжает удивлять, и вот на горизонте появляется новая звёздочка — DeepSeek-GRM. Команда DeepSeek решила, что обычные системы моделирования вознаграждения (RM) в XXI веке — это просто нечто устаревшее. Они предлагают нам свежий взгляд на технологии, обещая улучшить согласованность больших языковых моделей (LLM) с нашими запросами.

Принципы на которых строится DeepSeek-GRM

Давайте разберёмся, в чём же суть! Главная идея системы — использовать дополнительные вычислительные ресурсы во время инференса. Это не просто набор формул и алгоритмов, а динамическое улучшение и масштабирование оценки вознаграждения, которое значительно отклоняется от утрированно статичных RM, к которым мы все привыкли. А это означает, что несколько чисел больше не решают всех проблем.

Как это работает?

Теперь подробнее о «волшебстве»! DeepSeek-GRM соединяет несколько мощных компонентов в одном. Это генеративное моделирование вознаграждения (GRM), обучение по методу Self-Principled Critique Tuning (SPCT) и, конечно же, умные хитрости вроде параллельного сэмплинга и голосования во время инференса. SPCT позволяет модели не просто следовать заданным критериям, а самостоятельно формулировать принципы оценки и генерировать критику при помощи методов обучения с подкреплением (RL). Вот это уже звучит впечатляюще, не правда ли?

Результаты, которые говорят сами за себя

Теперь о том, насколько DeepSeek-GRM крут. Он не просто обходит существующие базовые модели на RM-бенчмарках, но и делает это, не теряя в качестве. DeepSeek-GRM с архитектурой 27 миллиардов параметров показывает результаты, близкие к статусу SOTA (State of the Art), и делает это более эффективно, чем его «ребята-братишки» с запредельными размерами моделей. Это важно! Не нужно навязывать гигантские модели ради мифа о «большом брате» — результат можно получить и с разумным расходом ресурсов.

Несмотря на то, что LLM-as-a-Judge демонстрирует схожие результаты, у него ниже производительность. Одно из самых интересных направлений, которое продвигает DeepSeek — это перенос части «интеллекта» оценки на этап инференса, что поднимает качество моделей на новый уровень.

Мысли вслух

DeepSeek-GRM открывает новые горизонты в области моделирования вознаграждений и может стать важным инструментом для будущего развертывания больших языковых моделей. Это бухта свежего воздуха в том мире, где статические модели больше не могут справляться с динамично меняющимися запросами пользователей. Замечаете ли вы, как быстро технологии развиваются? Надеюсь, что с таким подходом мы увидим новые высоты и, наконец, модели, которые действительно понимают и живут в среде, где они существуют.

В общем, следим за развитием событий!

DeepSeek-GRM: Прорыв в моделировании вознаграждений для LLM ver 0
Ширина: 1280 px
Высота: 659 px
Соотношение сторон.: 1280:659

Скачать

DeepSeek-GRM: Прорыв в моделировании вознаграждений для LLM ver 1
Ширина: 1280 px
Высота: 748 px
Соотношение сторон.: 320:187

Скачать

DeepSeek-GRM: Прорыв в моделировании вознаграждений для LLM ver 2
Ширина: 1280 px
Высота: 856 px
Соотношение сторон.: 160:107

Скачать

DeepSeek-GRM: Прорыв в моделировании вознаграждений для LLM ver 3
Ширина: 1280 px
Высота: 794 px
Соотношение сторон.: 640:397

Скачать

DeepSeek-GRM: Прорыв в моделировании вознаграждений для LLM ver 4
Ширина: 1280 px
Высота: 962 px
Соотношение сторон.: 640:481

Скачать

Теги.: DeepSeek-GRM моделирование вознаграждения генеративное моделирование большие языковые модели машинное обучение

51 2 месяца назад

Обсуждение (0)

Войдите, чтобы оставить комментарий

Пока нет комментариев!

Михаил

Предыдущая статья

ИИ-терапевт Therabot: Революция в лечении депрессии и тревоги!

Следующая статья

Прогнозирование вычислений: ключевые аспекты и методики

Вам также может понравиться

NVIDIA: Симуляция научила роботов двигаться как люди! Джим Фан (Директор по ИИ в NVIDIA) рассказал, что их команда добилась впечатляющего результата: роботы научились ходить и ориентироваться в прост

05 Jun