当前位置：首页 > ds >正文

监督微调记忆，强化学习泛化：基础模型后训练的比较研究

ds 2025/7/5 7:08:56

Tianzhe Chu♠*，Yuexiang Zhai♥♣*，Jihan Yang♦，Shengbang Tong♦，Saining Xie♣♦，Dale Schuurmans♣，Quoc V. Le♣，Sergey Levine♥，Yi Ma♠♥
* 贡献相同。♠香港大学，♥加州大学伯克利分校，♣谷歌 DeepMind，♦纽约大学。所有实验均在谷歌以外进行。通讯作者：Tianzhe Chu tianzhechu@gmail.com，Yuexiang Zhai simonzhai@berkeley.edu。

摘要

监督微调（SFT）和强化学习（RL）是基础模型广泛使用的后训练技术。然而，它们在增强模型泛化能力方面的具体作用仍不明确。本文研究了 SFT 和 RL 在泛化和记忆方面的比较效果，重点关注基于文本和视觉的环境。我们引入了 GeneralPoints，这是一款算术推理纸牌游戏，同时还考虑了 V-IRL，一个真实世界的导航环境，以评估用 SFT 和 RL 训练的模型在文本和视觉领域中对未见变体的泛化能力。我们发现，RL，尤其是在基于结果的奖励下训练时，能够在基于规则的文本和视觉环境中进行泛化。相比之下，SFT 倾向于记忆训练数据，在两种场景下都难以在分布外进行泛化。进一步的分析表明，RL 提高了模型潜在的视觉识别能力，有助于其在视觉领域增强泛化能力。尽管 RL 在泛化方面表现出色，但我们表明 SFT 对有效的 RL 训练仍然有帮助：SFT 稳定了模型的输出格式，使后续的 RL 能够实现性能提升。这些发现证明了 RL 在复杂多模态任务中获取可泛化知识的优势。

1. 引言

虽然 SFT 和 RL 都广泛用于基础模型训练，但它们对泛化的不同影响仍不明确，这给构建可靠且稳健的人工智能系统带来了挑战。分析基础模型泛化能力的一个关键挑战是将数据记忆与可转移原则的获取区分开来。因此，我们研究 SFT 或 RL 主要是记忆训练数据，还是学习了可适应新任务变体的可泛化原则。

为了解决这个问题，我们关注泛化的两个方面：基于文本规则的泛化和视觉泛化。对于文本规则，我们研究模型将所学规则应用于这些规则变体的能力。对于视觉语言模型（VLMs），视觉泛化衡量在给定任务中，模型对视觉输入变化（如颜色和空间布局）的性能一致性。

为了研究基于文本和视觉的泛化，我们引入了两个体现规则和视觉变体的不同任务。第一个任务是 GeneralPoints，这是一个原创的纸牌游戏任务，旨在评估模型的算术推理能力。在 GeneralPoints 中，模型会收到四张牌（以文本描述或图像形式呈现），并需要使用每张牌的数值恰好一次来计算出一个目标数字（默认值为 24）。其次，我们采用 V-IRL，这是一个真实世界的导航任务，专注于模型的空间推理能力。

我们采用多步 RL 框架，在骨干模型上运行 SFT 后实例化 RL。在 GeneralPoints 和 V-IRL 中，我们观察到 RL 学习到了可泛化的规则，而 SFT 似乎记忆了训练规则，无法进行泛化。除了基于文本规则的泛化，我们进一步研究了视觉领域的泛化，发现 RL 也能在视觉分布外（OOD）任务中进行泛化，而 SFT 仍然表现不佳。

作为视觉 OOD 泛化能力的一个副产品，我们的多轮 RL 方法在 V-IRL 迷你基准测试中达到了最先进的性能，提升了 33.8%。为了了解 RL 如何影响模型的视觉能力，我们在 GeneralPoints 上进行了额外的分析，揭示了使用基于结果的奖励函数训练 RL 可以提高视觉识别能力。虽然 RL 相比 SFT 表现出更优的泛化能力，但我们表明 SFT 对于稳定模型的输出格式仍然有帮助，使 RL 能够实现性能提升。最后，我们观察到通过增加最大步数来扩大推理时间计算量可以带来更好的泛化效果。

2. 相关工作

2.1 后训练

后训练对于提升模型性能至关重要。这个阶段通常利用大规模监督微调（SFT）和 / 或强化学习（RL）。SFT 通过在特定任务的、通常是指令格式的数据集上训练预训练模型，使其适应下游任务。先前的工作表明，在多样化的指令调整数据集上进行微调可以显著提高模型在未见任务上的零样本性能。此外，监督微调起到了 “格式教师” 的作用，有效地使模型的响应适应所需格式，同时利用预训练大语言模型（LLMs）的能力。相比之下，RL 主要用于使模型与人类偏好保持一致，或训练基础模型来解决特定任务。我们的工作旨在对 SFT 和 RL 在 LLM 和 VLM 上的泛化和记忆进行比较分析，而先前的研究主要集中在这两种后训练方法中的一种，或仅研究 LLM 或 VLM，或仅研究一种后训练方法。

2.2 LLM/VLM 中的记忆与泛化

多项研究探讨了神经网络中记忆与泛化之间的相互作用。在 LLMs 中，记忆表现为模型记忆训练数据，而泛化反映了模型输出分布与预训练数据分布之间的差异。先前的研究表明，LLMs 在更简单、知识密集型的任务上更容易出现过拟合，而在更复杂、推理密集型的任务上表现出更强的泛化能力。最近的研究表明，LLMs 通过在自回归生成之前预计算推理图，发展出了超出训练数据的推理技能，这为泛化提供了有力证据。我们的研究在基于文本规则和视觉变体的背景下，研究不同后训练范式对记忆与泛化的作用。我们在单模态（LLM）和多模态（VLM）设置中进行了比较研究，并证明 RL 比 SFT 具有更好的泛化性能。

2.3 扩大推理时间计算量

最近的研究越来越关注扩大推理时间计算量以提高模型性能。早期的研究促使模型生成中间推理步骤，并在生成最终答案之前扩展响应。随后的工作表明，在推理过程中微调验证器可以提高模型准确性，有效地利用测试时间计算量。最近的发现揭示了推理时间计算的 “缩放定律”，突出了随着计算资源增加而带来的显著性能提升。我们的工作将推理时间验证的见解整合到多轮 RL 公式中，使模型能够识别并纠正自己的错误。同时，我们研究了推理时间验证对 RL 泛化的影响，证明了扩大推理时间验证（就最大验证步数而言）是 RL 实现泛化的关键。

2.4 提升 VLM 中的视觉能力

虽然 VLM 在广泛的具有挑战性的任务中表现出卓越的技能，但它们在视觉感知方面也存在局限性。先前提升 VLM 视觉感知能力的努力包括结合多个视觉编码器、整理高质量的 SFT 数据以及通过解冻视觉骨干网络来改进 SFT 训练方法。我们的工作表明 RL 也可以提高视觉感知能力。

3. 预备知识

3.1 标准 RL 术语

我们考虑有限时间决策问题，采用经典 RL 文献中的标准符号。其中 s 表示状态空间，A 表示动作空间，r 表示奖励函数，T 表示每个 episode 的最大步数。目标是学习一个策略 π，使总体回报最大化。我们使用 π(a | s) 表示策略 π 在状态 s 选择动作 a 的概率。

3.2 为带有验证器的 LLM/VLM 适配 RL 术语

我们在基础模型训练中采用多轮 RL 设置。令 v 表示离散且有限的词汇空间。输入和输出文本空间分别表示为 V^m 和 y^n ，对于需要视觉输入的模型（VLM），我们将 O 定义为所有 RGB 图像的空间。状态空间 S 对于 VLM 定义为 S := V^m×O，对于 LLM 定义为 S := V^m。动作空间 A 定义为 A := V^n。我们使用 VER 表示一个验证器，它评估 v^out 的结果，并生成一个基于结果的奖励函数 r 以及文本信息 v^ver。我们将参数为 θ 的模型视为我们的策略网络 π_θ，并采用近端策略优化（PPO）作为骨干 RL 算法来更新 π_θ。

3.3 顺序修正

为了对状态 - 动作转换进行建模，我们采用顺序修正公式。在时间步 t = 0 时，初始输入 v_0^in 由系统提示组成。对于后续时间步（t≥1），输入提示 v_t^in 由系统提示与所有先前模型和验证器的输出连接而成。

4. 评估任务

为了评估不同后训练方法的泛化能力，我们选择了两个任务，每个任务都提供规则和视觉变体。第一个任务 GeneralPoints 是我们设计的新环境，用于评估算术推理能力。第二个任务 V-IRL 用于检验模型在开放世界视觉导航领域的推理能力。

4.1 GeneralPoints 环境

我们基于 Points24 环境创建了原创的 GeneralPoints 环境，旨在评估算术推理的泛化能力。该环境的每个状态包含 4 张牌，以文本或图像形式描述。目标是使用这 4 张牌上的数字恰好一次，生成一个等于目标数字（默认值为 24）的等式。

为了研究模型是学习算术运算还是仅仅记忆后训练数据，我们在 GeneralPoints 中引入了规则变体。这些变体包括将符号 “J”“Q”“K” 分别解释为 “11”“12”“13”，或者全部解释为 “10”。我们使用一种规则对模型进行后训练，然后使用不同的规则进行评估。

GeneralPoints 环境也可以自然地定制，以评估跨视觉变体的泛化能力。我们将不同颜色的牌视为任务的视觉变体。在视觉泛化设置中，我们使用一种颜色的牌训练模型，然后使用另一种颜色的牌测试其分布外性能。

4.2 V-IRL 环境

我们利用 V-IRL 环境来研究在使用真实视觉输入的开放世界导航领域中的空间推理能力。该环境有纯语言和视觉语言两个版本。V-IRL 中的主要视觉挑战是在采取行动之前从视觉观察中识别不同的地标。目标是通过遵循一组包含空间信息的指令导航到目标位置。

为了评估模型是具备空间知识还是仅仅记忆后训练数据，我们考虑两种不同的动作空间配置。第一个变体使用绝对方向动作空间，第二个变体采用相对方向动作空间。

V-IRL 中的关键视觉挑战是从视觉观察中识别地标。我们通过训练模型在一个位置导航，然后在不同位置评估其性能，来评估 V-IRL 中的视觉泛化能力。

5. 结果

我们采用 Llama - 3.2 - Vision - 11B 作为骨干模型，遵循 RLHF 和 RL4VLM 的标准流程，在运行 RL 之前用 SFT 初始化模型。我们具体研究以下问题：SFT 或 RL 如何影响模型对不同规则的泛化能力；当模型包含视觉组件时，RL/SFT 如何影响其对不同视觉变体的泛化能力；RL/SFT 如何影响 VLM 中的视觉识别能力；SFT 在 RL 训练中起什么作用；验证迭代次数如何影响泛化能力。

5.1 跨规则泛化

我们评估不同后训练方法在 GeneralPoints 和 V-IRL 上的性能，这两个任务都有纯语言和视觉语言变体，并且都包含规则变体。我们将在训练规则上的结果视为分布内性能，而在未见规则上的结果衡量分布外泛化能力。

实验结果表明，RL 在所有任务上始终提高分布外性能，包括单模态和多模态任务。相比之下，SFT 在所有任务的所有分布外评估中始终表现出性能下降。

5.2 视觉分布外任务中的泛化

由于 VLMs 也包含视觉模态，我们研究视觉变体在分布外泛化中的影响。对于 GeneralPoints，我们使用黑色花色训练 VLM，并在红色花色上测试其分布外性能。对于 V-IRL，我们在纽约市收集的路线上训练模型，并在原始的 V-IRL VLN 迷你基准上进行评估。

实验结果显示，RL 在视觉分布外任务中仍然能够泛化，而 SFT 继续表现不佳。此外，我们的多轮 RL 方法将 V-IRL 迷你基准上的最先进结果提高了 33.8%。

5.3 RL 提高视觉能力

基于使用 RL 训练的 VLMs 能够泛化到视觉分布外任务的观察，我们研究 RL 如何影响 VLMs 的视觉能力。我们在 GP - VL 环境中进行了额外的消融研究，调查 RL 和 SFT 的分布外性能，以及模型的视觉识别准确率。

研究发现，扩展 RL 计算量提高了视觉识别准确率，这是其泛化能力的副产品，而扩展 SFT 则会降低视觉识别准确率和整体性能。

5.4 SFT 在 RL 训练中的作用

尽管 RL 在泛化模型的推理和视觉能力方面具有优势，但实验流程仍然是在 SFT 之后实例化 RL。我们进行实验探究 SFT 对 RL 训练是否必要。结果显示，没有 SFT，所有端到端 RL 运行都无法提升性能。这表明当骨干模型不遵循指令时，SFT 对 RL 训练是必要的。

5.5 验证迭代的作用

验证是我们多步训练和评估流程中的关键组件。为了验证其必要性并更好地理解其效果，我们使用 GP - L 进行了不同验证迭代次数的 RL 实验。实验结果表明，RL 在更多验证步骤下泛化效果更好。

6. 结论、讨论和局限性

我们对基础模型后训练技术（特别是 RL 和 SFT）的泛化效果进行了全面分析。通过在 GeneralPoints 和 V-IRL 任务上的大量实验，我们证明了 RL 在学习可泛化知识方面表现出卓越的性能，而 SFT 则倾向于仅仅记忆训练数据。此外，我们研究了 RL 对视觉识别的影响、SFT 的作用以及验证步骤的作用。

在研究过程中，有两个挑战尚未解决。在 GP - VL 上，SFT 无法达到与 RL 相当的分布内性能，我们假设 SFT 在局部过度拟合推理标记，而忽略了识别标记，将进一步的研究留作未来的工作。另外，RL 在应用于极度欠拟合或过拟合的初始检查点时有效性有限，需要进一步研究来确定 SFT 促进有效 RL 的条件。

7. 致谢

YZ 感谢 Xiaoxuan Feng 美化相关图片。我们感谢 Druv Pai、Jincheng Mei 和 Doina Precup 对早期手稿的反馈。这项研究部分得到了美国国家科学基金会、美国海军研究办公室、香港建筑机器人有限公司以及香港大学启动基金的支持。

参考文献

[此处为参考文献列表，因内容较多，暂未详细列出，若有需求可单独提出]

附录 A GeneralPoints 环境详细信息

A.1 数据

GeneralPoints 的四张牌组合是从一副 52 张标准扑克牌中抽取的。每个抽取的组合都保证至少有一个等于目标点数（即 24）的解，我们在采样过程中使用专家求解器来确保这一点。

A.2 转换动态详细示例

我们将系统提示视为 v_0^in，然后将未来的输出 v_1:t^out 和验证器信息 v_1:t^ver 附加到提示中，以获得 t + 1 时刻的输出。我们分别提供了带有视觉输入和仅语言的示例。

A.3 环境设计的其他细节

GeneralPoints 环境支持目标点数、花牌规则、抽牌方式、牌的颜色等可配置参数。在所有实验中，我们将目标点数固定为 24。在训练和域内评估、域外评估以及视觉分布转移实验中，我们使用不同的规则和牌的颜色设置。

奖励设计方面，当生成一个正确的等式或达到最大验证步数 5 时，一个 episode 结束。奖励函数根据等式的正确性、是否超过验证步数、是否包含非法数字等情况进行设置。在视觉语言变体中，当智能体未能正确识别给定的牌时，会额外施加惩罚。

附录 B V-IRL 环境详细信息

B.1 数据

我们构建了一个包含 1000 条来自纽约市的唯一路线的训练数据库。我们使用从该数据库中随机抽取的路线评估所有规则变体实验和视觉分布内实验。对于视觉分布外实验，我们直接采用包含来自多个城市路线的 VLN 迷你基准。

B.2 转换动态详细示例

我们提供了 V-IRL 环境的视觉和语言、纯语言两种详细转换示例。

B.3 环境设计的其他细节

路线是 V-IRL 环境中的基本导航对象，包括目的地、起点、转折点、直路、街景、神谕信息、专家轨迹和指令等要素。

我们简化了原始 V-IRL 设计，以更好地适应 RL 训练，同时增加了动作空间和最大直路长度两个配置参数。动作空间有绝对方向和相对方向两个选项，我们在不同的实验设置中使用不同的动作空间。最大直路长度用于限制转折点之间的可移动坐标数量。

奖励设计上，当导航智能体到达目的地或达到最大验证步数 2 时，一个 episode 结束。奖励函数根据动作的正确性、是否超过验证步数、是否检测到地标等情况进行设置。

附录 C 实验设置

C.1 数据

我们通过将每个系统提示与其相应的专家响应配对来创建 SFT 训练样本。此外，我们进行了 SFT 在次优轨迹上的实验，结果表明记忆现象是由 SFT 训练的基本性质引起的，而不是 SFT 数据本身。

C.2 训练管道

我们遵循 RL4VLM 的训练管道，首先用 SFT 初始化模型，然后分别调整 SFT 和 RL 的计算量。所有训练实验都在配备特定设备的机器上进行。

C.3 评估指标

我们使用每步准确率评估 V-IRL-VL 任务，当模型选择的动作与专家轨迹匹配时，单个步骤被视为正确。对于 GeneralPoints 和 V-IRL 的其他版本，我们使用成功率进行评估，在 GeneralPoints 任务中，成功定义为在推理时间验证过程中至少成功一次；在 V-IRL 任务中，当模型在路线上的每个可移动点都采取正确的动作时，该样本被记录为成功。

我们按照特定方法估计训练的计算量，并给出了 SFT 和 RL 训练计算量的估计公式。在估计 RL 训练计算量时，考虑到 PPO 算法的特点，对其中的相关项进行了近似处理，且针对 GeneralPoints 和 V-IRL 分别给出了近似参数值。

此外，我们采用 Savitzky-Golay 滤波器（多项式阶数为 3）对论文中的线图进行平滑处理。同时，假设每个评估数据点遵循二项分布，通过特定公式近似标准误差，其中涉及成功率和样本数量。

附录 D 其他实验结果

D.1 GP-VL 上的消融实验

针对 SFT 在 GP-VL 分布内性能不如 RL 这一现象，我们进行了消融实验。在 SFT 实验中，针对不同参数调整情况，如微调所有参数、冻结视觉编码器、冻结视觉编码器和适配器时，分别搜索不同范围的学习率，并给出相应的分布内成功率曲线。在 RL 实验中，对特定的学习率进行搜索，也给出了分布内成功率曲线。