模型微调之对齐微调KTO
KTO旨在通过优化知识从预训练模型向微调模型的转移过程,使得微调后的模型能够更好地遵循人类指令,提高模型在特定任务上的性能,同时保持模型的泛化能力。它主要关注如何在微调过程中有效地利用预训练模型的知识,减少过拟合,增强模型与人类期望输出的对齐程度。
1. KTO 核心思想
KTO 基于行为经济学中的 前景理论(Prospect Theory),认为人类对“损失”的敏感度高于“收益”。在模型对齐中,KTO 通过设计不对称的损失函数,更严厉地惩罚负面输出,同时适度奖励正面输出,以此提升模型生成内容的安全性、无害性和有用性。
与 RLHF 对比:
- RLHF:依赖成对偏好数据(如正例 > 负例),需显式比较样本。
- KTO:仅需单样本标注(正例/负例),直接建模绝对偏好,数据成本更低。
KTO(Kahneman-Tversky Optimisation):基于行为经济学理论,通过二元反馈&#