Обучение с подкреплением: как языковые модели овладевают искусством рассуждения
В мире искусственного интеллекта наблюдаются потрясающие изменения, и особенно в области языковых моделей, где недавние успехи и неудачи вызвали множество обсуждений. Недавняя статья Себастьяна Рашки, автора книги "Build a Large Language Model From Scratch", представляет глубокий анализ текущих тенденций и проблем, с которыми сталкиваются современные подходы к обучению больших языковых моделей (LLM) через призму обучения с подкреплением (RL).
Ситуация в сфере LLM изменялась с космической скоростью, однако релизы таких моделей, как GPT-4.5 и Llama 4, не вызвали ожидаемого фурора. Причина? Эти модели остались на уровне "классического" подхода к обучению, не предлагая пользователям возможности продвинутого мышления. В то время как конкуренты, такие как xAI и Anthropic, уже внедрили функции "расширенного мышления", OpenAI представила o3 — модель, сосредоточенную на стратегическом применении вычислений, используя обучение с подкреплением. Такое положение говорит о том, что простое увеличение данных и количества параметров уже не дает необходимых результатов, и обучение с подкреплением становится ключевым направлением для будущего моделей.
Инструмент RLHF, который давно стал стандартом в настройке LLM на основе человеческой обратной связи, конечно, эффективен для адаптации моделей под предпочтения пользователей, но когда речь заходит о задачах, требующих логического мышления, он уже не так высокоэффективен.
На виду появляется GRPO — модифицированная версия алгоритма PPO, которая помогает экономить ресурсы, исключая модель оценки вознаграждения. Эта методология была использована в запуске DeepSeek-R1-Zero, которая обучалась без этапа SFT, полагаясь исключительно на автоматические проверки ответов. Таким образом, если математическая задача решена правильно, модель получает "плюс", если нет — "минус". Такой подход не только снижает затраты, но и уменьшает вероятность "обмана" модели, известного как reward hacking.
Тем не менее, тот факт, что RL не является универсальным решением, подтвержден многочисленными исследованиями. Действительно, алгоритмы такие как PPO и GRPO иногда поощряют длинные, но ошибочные ответы. Штрафы за ошибки распределяются по токенам, и это заставляет модель растягивать текст, чтобы минимизировать наказание. Но даже тут есть пути к улучшению: некоторые команды работают над введением дополнительных штрафов за избыточную длину, а другие пересматривают подходы к вычислению преимуществ. Мне особенно нравится модель L1 от Kaggle, которая позволяет пользователям указывать желаемую длину ответа, тем самым достигая баланса между точностью и затратами.
Но стоит отметить, что рассуждать можно и без учителя в лице RL. Например, DeepSeek V3 демонстрирует способность к логическим "озарениям" без специализации на обучении IRM. Это заставляет задуматься о реальной роли RL — возможно, ключ к успеху заключается в наборе данных, содержащих примеры логических последовательностей.
Несмотря на все свои ограничения, обучение с подкреплением действительно усиливает способности языковых моделей. Оно позволяет моделям не только самокорректироваться, но и использовать внешние инструменты, например, калькуляторы или интернет-поиск. Эти функции обеспечивают возможность переноса знаний из одних областей в другие, таких как математика и медицина.
Но не все, что обещает прогресс, оказывается таковым на практике. Улучшения на малых моделях часто являются нестабильными и зависят от многих случайных факторов, включая выбор случайного числа. Кроме того, обучение с использованием RL требует значительных вычислительных ресурсов; например, o3 от OpenAI потребовало в десять раз больше ресурсов, чем предыдущая модель.
Резюмируя все вышесказанное, можно сказать, что, несмотря на свои недостатки, обучение с подкреплением остается важной вехой в развитии языковых моделей. Тем не менее, нам следует избегать излишнего восторга и помнить, что сочетание RL, автоматической проверки ответов, контроля длины ответов и применение гибридных подходов — именно это приведет к созданию моделей, которые не просто генерируют текст, а действительно "думают".
🔜 Читайте оригинал статьи!
@ai_machinelearning_big_data
#AI #ML #LLM #RL

Обучение с подкреплением: Новые горизонты LLM и рассуждений ver 0
Ширина: 1456 px
Высота: 794 px
Соотношение сторон.: 728:397
Скачать

Обучение с подкреплением: Новые горизонты LLM и рассуждений ver 1
Ширина: 1164 px
Высота: 858 px
Соотношение сторон.: 194:143
Скачать
Вам также может понравиться






















