强化学习选择rule-based的reward func还是使用reward model / RLAIF?
- 参考一些论文,如deepseek r1、selftok等,以及自己做实验,发现rule-based reward func往往由于奖励信号发挥稳定而提升强化学习过程的稳定性,表现为reward曲线往往能够较稳定上升;相比之下,使用reward model或者其它一些AI辅助的reward计算方式,往往因为reward评价标准不一,而导致大量reward结果不合理,进而影响强化学习的稳定性,表现为奖励曲线不上升。
- rule-based reward func的reward曲线
- 使用reward model / RLAIF的reward曲线