Post by tag: ReinforcementLearning

Tag: ReinforcementLearning

DAPO: Революционный RL-Алгоритм для Языковых Моделей от ByteDance!

06 Jun

Елена

DAPO: Революционный RL-Алгоритм для Языковых Моделей от ByteDance!

Read More

Новый взгляд на обучение агентов: Agentic Reward Modeling от THU-KEG

07 Jun

Михаил

Новый взгляд на обучение агентов: Agentic Reward Modeling от THU-KEG

Read More