GENERALIST REWARD MODELS: FOUND INSIDE LARGELANGUAGE MODELS
Generalist Reward Models: Found Inside Large Language Modelshttps://arxiv.org/pdf/2506.23235
1. 概述
将大型语言模型(LLMs)与复杂的人类价值观(如乐于助人和诚实)对齐,仍然是人工智能发展中的一个核心挑战。这项任务的主要范式是来自人类反馈的强化学习(RLHF)[Christiano et al., 2017; Bai et al., 2022a; OpenAI, 2022]。这个流程严重依赖于一个奖励模型(RM),该模型经过人类偏好的训练