当前位置：首页 > backend >正文

大模型训练方法全面解析：SFT、RFT、TRPO、DPO、PPO、GRPO、RLH、RLHF技术深度剖析

backend 2025/8/24 21:40:37

大模型训练方法全面解析：SFT、RFT、TRPO、DPO、PPO、GRPO、RLH、RLHF技术深度剖析

概述

在现在大模型快速发展的阶段，项目中如何让模型生成的内容更符合人类偏好是核心挑战。参考个大模型厂家的各种文档，深入的分析了当前主流的大模型训练和对齐技术，包括监督微调（SFT）、拒绝采样微调（RFT）、信任域策略优化（TRPO）、直接偏好优化（DPO）、近端策略优化（PPO）、群体奖励偏好优化（GRPO）以及基于人类反馈的强化学习（RLHF）等方法。

核心技术详解

1. SFT (Supervised Fine-Tuning) - 监督微调

核心思想

SFT是大模型训练流水线的基础步骤，通过高质量的指令-回答对来微调预训练模型，使模型学会遵循指令格式和基本对话能力。

输入数据

{"instruction": "请解释什么是机器学习","input": "","output": "机器学习是人工智能的一个分支，通过算法让计算机从数据中学习模式..."
}

核心代码框架

def sft_loss(model_output, target_output, attention_mask):"""SFT损失函数"""shift_logits = model_output[..., :-1, :].contiguous()shift_labels = target_output[..., 1:].contiguous()loss_fn = nn.CrossEntropyLoss(ignore_index=-100)loss = loss_fn(shift_logits.view(-1, shift_logits.size(-1)), shift_labels.view(-1))return loss

特性与优势

简单高效：实现简单，训练稳定
快速收敛：相比强化学习方法收敛更快
可解释性强：直接优化目标明确

劣势

数据依赖性强：需要大量高质量标注数据
泛化能力有限：难以处理训练数据之外的场景
偏好对齐不足：无法直接优化人类偏好

适用场景

预训练模型的初始对齐
领域专门化微调
基础指令遵循能力培养

2. RFT (Rejection Sampling Fine-tuning) - 拒绝采样微调

核心思想

通过对模型生成的多个候选回答进行质量评估，只选择高质量样本进行训练，提升模型输出质量。

工作流程

def rejection_sampling_finetune(model, prompts, reward_model, k=16):"""拒绝采样微调流程"""high_quality_samples = []for prompt in prompts:# 生成多个候选回答candidates = model.generate(prompt, num_return_sequences=k)# 使用奖励模型评分scores = [reward_model(prompt, candidate) for candidate in candidates]# 选择得分最高的样本best_idx = np.argmax(scores)if scores[best_idx] > threshold:high_quality_samples.append((prompt, candidates[best_idx]))# 使用高质量样本进行SFTmodel = sft_train(model, high_quality_samples)return model

特性

质量过滤：自动筛选高质量训练样本
迭代改进：可与其他方法结合迭代使用
数据效率：减少低质量数据的负面影响

3. TRPO (Trust Region Policy Optimization) - 信任域策略优化

核心思想

在策略更新时限制每步的更新幅度，确保训练稳定性，避免策略崩塌。

代码实现

class TRPO:def __init__(self, policy, value_fn, max_kl=0.01):self.policy = policyself.value_fn = value_fnself.max_kl = max_kldef update_policy(self, states, actions, advantages):# 计算策略梯度policy_grad = self.compute_policy_gradient(states, actions, advantages)# 计算自然策略梯度natural_grad = self.compute_natural_gradient(policy_grad, states)# 线搜索确定步长step_size = self.line_search(natural_grad, states)# 更新策略参数self.policy.update_parameters(natural_grad * step_size)

优势

训练稳定：有效防止策略崩塌
理论基础扎实：有严格的理论保证
适合复杂任务：在复杂强化学习任务中表现良好

劣势

计算复杂度高：需要计算二阶导数信息
实现复杂：工程实现相对困难
收敛较慢：相比其他方法收敛速度较慢

4. PPO (Proximal Policy Optimization) - 近端策略优化

核心思想

PPO是RLHF框架中最重要的算法之一，通过剪切目标函数来限制策略更新幅度，平衡探索与利用。

完整实现

class PPOTrainer:def __init__(self, actor, critic, reward_model, clip_epsilon=0.2):self.actor = actor  # 策略网络self.critic = critic  # 价值网络self.reward_model = reward_modelself.clip_epsilon = clip_epsilondef compute_advantages(self, states, rewards, values, next_values):"""计算优势函数"""deltas = rewards + self.gamma * next_values - valuesadvantages = []advantage = 0for delta in reversed(deltas):advantage = delta + self.gamma * self.lam * advantageadvantages.insert(0, advantage)return torch.tensor(advantages)def ppo_loss(self, states, actions, old_log_probs, advantages, values, returns):"""PPO损失函数"""# 策略损失new_log_probs = self.actor.log_prob(states, actions)ratio = torch.exp(new_log_probs - old_log_probs)surr1 = ratio * advantagessurr2 = torch.clamp(ratio, 1 - self.clip_epsilon, 1 + self.clip_epsilon) * advantagespolicy_loss = -torch.min(surr1, surr2).mean()# 价值损失value_loss = F.mse_loss(self.critic(states), returns)# 熵损失（促进探索）entropy = self.actor.entropy(states).mean()total_loss = policy_loss + 0.5 * value_loss - 0.01 * entropyreturn total_loss

在RLHF中的应用

def rlhf_training_step(model, reward_model, prompts):"""RLHF训练步骤"""# 1. 生成回答responses = model.generate(prompts)# 2. 计算奖励rewards = reward_model(prompts, responses)# 3. 计算优势values = critic_model(prompts)advantages = compute_gae(rewards, values)# 4. PPO更新ppo_loss = ppo_trainer.compute_loss(prompts, responses, advantages)optimizer.step()return model

特性与优势

实现简单：相比TRPO更易实现
训练稳定：有效控制策略更新幅度
计算高效：不需要二阶导数信息
广泛应用：OpenAI ChatGPT等模型的核心算法

适用场景

RLHF框架的核心算法
复杂序列生成任务
需要平衡探索与利用的场景

5. DPO (Direct Preference Optimization) - 直接偏好优化

核心思想

DPO革命性地简化了RLHF流程，直接从偏好数据中学习，无需训练独立的奖励模型。

DPO基于一个关键洞察：最优策略与奖励模型之间存在闭式解；

核心实现

class DPOTrainer:def __init__(self, model, ref_model, beta=0.1):self.model = modelself.ref_model = ref_modelself.beta = betadef dpo_loss(self, prompts, chosen_responses, rejected_responses):"""DPO损失函数"""# 计算当前模型的log概率chosen_logprobs = self.model.log_prob(prompts, chosen_responses)rejected_logprobs = self.model.log_prob(prompts, rejected_responses)# 计算参考模型的log概率with torch.no_grad():chosen_ref_logprobs = self.ref_model.log_prob(prompts, chosen_responses)rejected_ref_logprobs = self.ref_model.log_prob(prompts, rejected_responses)# 计算偏好得分chosen_rewards = self.beta * (chosen_logprobs - chosen_ref_logprobs)rejected_rewards = self.beta * (rejected_logprobs - rejected_ref_logprobs)# DPO损失loss = -torch.log(torch.sigmoid(chosen_rewards - rejected_rewards)).mean()return loss

数据格式

{"prompt": "请写一个关于友谊的故事","chosen": "从前有两个好朋友，他们互相帮助，共同成长...","rejected": "友谊就是...(质量较低的回答)"
}

优势

简化流程：无需训练奖励模型
稳定训练：避免了强化学习的不稳定性
数据效率高：直接从偏好数据学习
易于实现：实现相对简单

劣势

需要高质量偏好数据：对数据质量要求高
缺乏动态调整：无法在训练过程中动态调整奖励
可能过拟合：容易过拟合到训练数据的偏好

6. GRPO (Group Relative Policy Optimization) - 群体奖励偏好优化

核心思想

GRPO是一种新兴的优化方法，通过群体奖励和相对比较来优化模型策略，特别适用于推理任务。

算法流程

class GRPOTrainer:def __init__(self, model, group_size=8):self.model = modelself.group_size = group_sizedef grpo_step(self, prompts):"""GRPO训练步骤"""all_responses = []all_rewards = []# 为每个prompt生成多个回答for prompt in prompts:responses = self.model.generate(prompt, num_samples=self.group_size)rewards = self.evaluate_responses(prompt, responses)# 计算相对奖励relative_rewards = rewards - np.mean(rewards)all_responses.extend(responses)all_rewards.extend(relative_rewards)# 使用相对奖励进行策略更新loss = self.compute_policy_loss(prompts, all_responses, all_rewards)return lossdef evaluate_responses(self, prompt, responses):"""评估回答质量"""# 可以使用多种评估方法：# 1. 外部奖励模型# 2. 规则基础评估# 3. 人类评估pass

特性

群体比较：通过群体内部比较确定优劣
相对优化：关注相对质量而非绝对质量
适合推理任务：在数学、编程等推理任务中表现优异

7. RLHF (Reinforcement Learning from Human Feedback) - 基于人类反馈的强化学习

完整框架

RLHF是一个完整的训练框架，通常包含三个阶段：

class RLHFPipeline:def __init__(self):self.base_model = Noneself.reward_model = Noneself.policy_model = Nonedef stage1_sft(self, instruction_data):"""阶段1：监督微调"""self.base_model = sft_training(pretrained_model, instruction_data)return self.base_modeldef stage2_reward_modeling(self, preference_data):"""阶段2：奖励模型训练"""self.reward_model = train_reward_model(self.base_model, preference_data)return self.reward_modeldef stage3_rl_training(self, prompts):"""阶段3：强化学习优化"""self.policy_model = ppo_training(self.base_model,self.reward_model,prompts)return self.policy_model

奖励模型训练

def train_reward_model(base_model, preference_pairs):"""训练奖励模型"""reward_model = copy.deepcopy(base_model)# 添加分类头reward_model.score_head = nn.Linear(hidden_size, 1)for prompt, chosen, rejected in preference_pairs:chosen_score = reward_model(prompt + chosen)rejected_score = reward_model(prompt + rejected)# 偏好损失loss = -torch.log(torch.sigmoid(chosen_score - rejected_score))loss.backward()return reward_model

技术对比分析

训练复杂度对比

方法	实现复杂度	计算复杂度	数据需求	训练稳定性
SFT	低	低	高质量指令数据	高
RFT	中	中	奖励信号	中
TRPO	高	高	环境交互数据	高
PPO	中	中	环境交互数据	中
DPO	低	低	偏好对比数据	高
GRPO	中	中	群体评估数据	中
RLHF	高	高	多阶段数据	中

性能特点对比

适用场景矩阵

场景类型	SFT	PPO	DPO	GRPO	推荐指数
通用对话	✅	✅	✅	❌	DPO > PPO
代码生成	✅	✅	✅	✅	GRPO > DPO
数学推理	✅	✅	✅	✅	GRPO > PPO
创意写作	✅	✅	✅	❌	DPO > PPO
安全对齐	✅	✅	✅	❌	PPO > DPO

主流模型应用实例

GPT-5 (预估技术路线)

根据OpenAI的发展轨迹，GPT-5可能采用以下技术栈：

# GPT-5预期训练流程
class GPT5TrainingPipeline:def __init__(self):self.stages = ["预训练","SFT指令微调", "多轮迭代RLHF","安全性强化训练","多模态对齐"]def training_flow(self):# 1. 大规模预训练base_model = pretrain_on_web_data()# 2. 多阶段SFTsft_model = multi_stage_sft(base_model, [high_quality_instructions,domain_specific_data,multimodal_instructions])# 3. 迭代RLHF优化for iteration in range(6):  # 参考Llama3的6轮迭代# 奖励模型训练reward_model = train_reward_model(preference_data)# 拒绝采样rejection_samples = rejection_sampling(sft_model, reward_model)# SFT微调sft_model = finetune(sft_model, rejection_samples)# DPO优化sft_model = dpo_training(sft_model, preference_pairs)return sft_model

技术特点：

多轮迭代优化
结合PPO和DPO的混合训练
强化安全性和对齐性
支持多模态交互

Llama 3系列

基于Meta发布的技术报告，Llama 3采用了以下训练方法：

# Llama 3训练流程复现
class Llama3Training:def __init__(self):self.iterations = 6self.methods = ["RM", "RS", "SFT", "DPO"]  # 每轮核心操作def post_training(self, base_model):"""Llama 3后训练流程"""current_model = base_modelfor round_num in range(self.iterations):print(f"开始第{round_num + 1}轮训练")# 1. 奖励模型训练reward_model = self.train_reward_model(current_model)# 2. 拒绝采样high_quality_data = self.rejection_sampling(current_model, reward_model, k=10)# 3. SFT微调current_model = self.sft_finetune(current_model, high_quality_data)# 4. DPO优化current_model = self.dpo_optimize(current_model, preference_data)# 评估模型性能self.evaluate_model(current_model, round_num)return current_model

核心特点：

6轮迭代训练
每轮包含RM、RS、SFT、DPO四个步骤
数据质量逐步提升
大规模人工标注数据

DeepSeek-V3系列

DeepSeek在推理能力上的突破主要归功于创新的RL训练方法：

# DeepSeek R1训练方法
class DeepSeekR1Training:def __init__(self):self.reasoning_data = []self.long_cot_training = Truedef reasoning_rl_training(self, base_model):"""推理强化学习训练"""# 1. 长链思维训练数据构建reasoning_data = self.build_long_cot_data(["数学问题","编程题目", "逻辑推理","科学问题"])# 2. GRPO训练grpo_trainer = GRPOTrainer(base_model)for batch in reasoning_data:# 生成多个推理路径reasoning_paths = base_model.generate_with_reasoning(batch, num_paths=8)# 评估推理质量path_scores = self.evaluate_reasoning_quality(reasoning_paths)# GRPO更新loss = grpo_trainer.update(reasoning_paths, path_scores)return base_modeldef build_long_cot_data(self, domains):"""构建长链思维训练数据"""cot_data = []for domain in domains:# 收集该领域的复杂问题problems = self.collect_domain_problems(domain)# 生成详细推理过程for problem in problems:thinking_process = self.generate_thinking_process(problem)cot_data.append({"problem": problem,"thinking": thinking_process,"answer": self.solve_problem(problem)})return cot_data

技术突破：

创新的GRPO算法
长链思维(Long-CoT)训练
推理过程显式建模
多路径推理评估

Qwen 3系列

阿里巴巴Qwen系列采用了渐进式训练策略：

# Qwen 3训练流程
class Qwen3Training:def __init__(self):self.multi_stage_training = Trueself.domain_adaptation = Truedef progressive_training(self, base_model):"""渐进式训练流程"""# 阶段1：基础能力对齐stage1_model = self.basic_alignment(base_model)# 阶段2：多领域知识增强stage2_model = self.domain_enhancement(stage1_model)# 阶段3：安全性与价值观对齐stage3_model = self.safety_alignment(stage2_model)# 阶段4：用户偏好优化final_model = self.preference_optimization(stage3_model)return final_modeldef domain_enhancement(self, model):"""多领域知识增强"""domains = ["科学技术", "人文历史", "艺术创作", "商业分析", "教育教学", "医疗健康"]for domain in domains:# 领域特定数据准备domain_data = self.prepare_domain_data(domain)# 领域微调model = self.domain_finetune(model, domain_data)# 领域能力评估self.evaluate_domain_capability(model, domain)return model

技术特色：

多阶段渐进训练
领域专门化增强
中文语言优化
文化价值观对齐

项目应用场景

1. 对话系统项目

# 对话系统训练流程
def dialogue_system_training():# 阶段1: SFT基础能力sft_model = train_sft(data="conversational_data.json",epochs=3,learning_rate=2e-5)# 阶段2: DPO偏好对齐dpo_model = train_dpo(model=sft_model,preference_data="dialogue_preferences.json",beta=0.1)return dpo_model# 适用场景
scenarios = {"客服机器人": "SFT + DPO","个人助理": "SFT + RLHF","教育辅导": "SFT + Constitutional AI"
}

2. 代码生成项目

# 代码生成模型训练
def code_generation_training():# 多数据源SFTcode_model = train_sft(datasets=["github_code.json","stackoverflow_qa.json", "code_explanation.json"])# 代码质量强化学习rl_model = train_ppo(model=code_model,reward_function="code_execution_reward",evaluation_metrics=["correctness", "efficiency", "readability"])return rl_model

3. 内容创作项目

# 内容创作优化流程
def content_creation_training():# 创意生成SFTcreative_model = train_sft(data="creative_writing.json",style_control=True)# GRPO创意质量优化grpo_model = train_grpo(model=creative_model,diversity_reward=0.3,quality_reward=0.7)# 人类偏好精调final_model = train_dpo(model=grpo_model,preference_data="content_preferences.json")return final_model

4. 垂直领域应用

医疗问答系统

def medical_qa_training():return {"stage1": "医学知识SFT","stage2": "安全性Constitutional training","stage3": "专家偏好DPO训练","evaluation": "医学专业评估"}

法律咨询助手

def legal_assistant_training():return {"stage1": "法律条文SFT","stage2": "案例分析RLHF","stage3": "合规性验证","deployment": "审慎部署策略"}

金融分析工具

def financial_analysis_training():return {"stage1": "金融数据SFT","stage2": "风险评估训练","stage3": "监管合规检查","monitoring": "实时性能监控"}

项目实践建议

1. 方法选择策略

2. 实施建议

初期阶段：

从SFT开始建立基线
使用高质量指令数据
关注数据多样性和质量

中期优化：

引入人类偏好数据
选择DPO或PPO方法
平衡性能与计算成本

高级优化：

多方法组合应用
持续的人类反馈循环
安全性和对齐性验证

结论

作为大模型算法工程师的我，我认为这些训练方法的演进反映了AI对齐领域的快速发展。选择合适的训练方法需要综合考虑项目需求、资源约束、数据质量和期望效果。未来的趋势是多方法融合和自动化优化，我们需要持续关注新技术发展，并在实践中验证这些方法的有效性。

关键要点：

无固定方式：不同方法适用于不同场景
渐进优化：从简单方法开始，逐步提升
数据为王：高质量数据比复杂方法更重要
持续评估：建立完善的评估体系
安全第一：始终考虑AI安全和对齐问题

最后，作者希望这份技术分析能为您大模型训练项目提供实用的指导价值。

查看全文

http://www.xdnf.cn/news/18565.html

14.Shell脚本修炼手册--玩转循环结构(While 与 Until 的应用技巧与案例)

题解：P13754 【MX-X17-T3】Distraction_逆序对_前缀和_Ad-hoc_算法竞赛C++

一种解决使用 PotPlayer 播放 Alist 的 Webdav 时提示无法在 FTP/WebDAV/HTTP 上修改该文件夹的方法

QT-Mysql-查询语句-查询是否有表-表列名-查询记录

【AI基础：神经网络】16、神经网络的生理学根基：从人脑结构到AI架构，揭秘道法自然的智能密码

TensorFlow 深度学习开发环境搭建

Java和数据库的关系

Ubuntu 的 apt-get 强制使用 IPv4 网络

How to Use Managed Identity with ACS?

XCVU13P-2FHGB2104E Xilinx（AMD）Virtex UltraScale+ FPGA

MySQL索引原理与优化全解析

55.Redis搭建主从架构

ANSI终端色彩控制知识散播(II)：封装的层次(Python)——不同的逻辑“一样”的预期

【C初阶】自定义类型--结构体

Java：对象的浅拷贝与深拷贝

探索 List 的奥秘：自己动手写一个 STL List✨

基于JSqlParser的SQL语句分析与处理

网址账号正确，密码错误返回的状态码是多少

Go语言数据结构与算法-基础数据结构

Compose笔记(四十七)--SnackbarHost

Axure：有个特别实用的功能

什么是AI宠物

[2025CVPR-目标检测方向]PointSR：用于无人机视图物体检测的自正则化点监控

C++的struct里面可以放函数,讨论一下C++和C关于struct的使用区别

leetcode算法刷题的第十六天

力扣热题之技巧