SPCT: Масштабируемость и Реальные Вызовы Моделей Вознаграждения
Ставки в мире искусственного интеллекта поднимаются, и вот, как звездный игрок на поле розыгрыша, появляется метод SPCT (Self-Principled Critique Tuning). Исследование, проведенное DeepSeek-AI в сотрудничестве с Университетом Цинхуа, проливает свет на то, как мы можем прокачать генеративные модели вознаграждения (GRM) для больших языковых моделей. Звучит многообещающе, не правда ли? 🤔
Почему SPCT — это не просто очередная аббревиатура
SPCT решает, как настоящий супергерой, одну из самых застарелых проблем в обучении с подкреплением (RL): получение адекватных сигналов вознаграждения в сложных, многогранных условиях. Представьте себе, как игрок в шахматы, которому не объяснили правила. Это примерно так же, как модели действуют без четких указаний – хаос!
Метод, как турист, собравший в одну кучу rejective fine-tuning и rule-based RL, работает так: rejective fine-tuning позволяет модели создавать принципы и критические оценки, чем-то напоминающее то, как вы собираетесь провести свою жизнь – с осмысленными выборами. В то же время, система вознаграждений на основе правил выступает в роли сурового судьи, который ставит оценки за ошибки.
Возможно, самым впечатляющим является то, что SPCT не заставляет модели сидеть и размышлять в одиночку. Она обучается создавать собственные критерии оценки! Это значит, что даже в головоломках на уровне математического Ван Гога или при решении этических дилемм, модели становятся более точными и внятными.
Кто не любит масштабируемость?
Главная фишка SPCT – это масштабируемость инференса. Зачем раздувать модели до невиданных размеров? Вместо этого авторы предлагают генерировать множество вариантов принципов и оценок параллельно, а затем делать компиляцию через голосование.
Но как же быть с «шумихой», скажете вы? На помощь приходит мета-модель вознаграждения, которая отбирает только шедевры из массы. Это что-то вроде вашего внутреннего критика, который говорит: «Эй, этот вариант — нонсенс!»
Результаты и впечатления
Представьте, GRM DeepSeek с 27 миллиардами параметров, работающий с 32 параллельными образцами, оказывался эффективнее модели с 671 миллиардами параметров! Ребята, у вас не создаётся впечатления, что ресурсы использованы с умом? 🤓 Тесты на бенчмарках, таких как Reward Bench и PPE, показали, что SPCT действительно снижает субъективность модели. В задачах на рассуждение точноть возросла на 12%, а в оценках безопасности — на 9%!
Но давайте не забывать, идеальных решений не бывает. И здесь SPCT не исключение — он требует больше вычислительных ресурсов по сравнению с традиционными скалярными моделями. В специальной области, такой как верификация кода, его точность не может сравниться с конкурентами. Как когда вы пытаетесь поразить всех своими кулинарными навыками, но ваше фуэ-кулинарное блюдо всё равно не сможет затмить Ла Гурмэ.
Всё это делает SPCT занимательной темой для обсуждений и будущих исследований. Возможно, именно за его пределами мы найдем решение, которое изменит правила игры! 🚀

Масштабируемость моделей вознаграждения с SPCT: новое слово в AI ver 0
Ширина: 1589 px
Высота: 790 px
Соотношение сторон.: 1589:790
Скачать

Масштабируемость моделей вознаграждения с SPCT: новое слово в AI ver 1
Ширина: 1616 px
Высота: 1050 px
Соотношение сторон.: 808:525
Скачать
Вам также может понравиться






















