当前位置: 首页 > news >正文

【大模型】大模型数据训练格式

1. SFT(有监督微调)

1.1 数据格式

  • JSONL(每行一个 JSON 对象)最为流行;也可用 CSV/TSV,但 JSONL 更灵活。
  • 字段设计
    • prompt:用户输入或任务指令(通常以“系统指令+用户问题”拼接)
    • completion:希望模型生成的“黄金”回答
    • 可选 metadata:如示例来源、类别标签、示例难度等
{"prompt": "<|SYSTEM|>你是一名法律顾问。\n<|USER|>合同纠纷如何处理?", "completion": "首先,应当……并在必要时咨询专业律师。"}
{"prompt": "<|SYSTEM|>你是一名旅游助手。\n<|USER|>去巴黎有什么推荐?", "completion": "巴黎的必去景点包括埃菲尔铁塔……"}
  • 长度与拆分
    • prompt + completion 合计 token 数一般不超过模型最大上下文长度(如 4K、8K)。
    • 对超长示例,可分段给出——比如把背景单独一个示例,把核心提问单独一个示例。

1.2 常见示例规模

  • 小规模:几千条(用于快速验证思路)
  • 中等规模:1–10 万条(可获得明显效果提升)
  • 大规模:几十万–百万条(面向全功能对话/写作助手)

经验:对于 6B 量级模型,至少需要 2–5 万条高质量示例才能看到稳定的 SFT 提升;上不封顶,示例越多、越多样,微调效果越好。

2. RM(奖励模型训练)

2.1 数据格式

  • 对比式偏好数据:每条记录包含一对或多组生成,模型学习去区分“好”与“差”回答。
  • JSONL 格式示例:
{"prompt": "如何写一封求职信?","response_a": "尊敬的招聘经理……",  "response_b": "你好,我想要这份工作……",  "label": 0}
  • label:通常用 01 表示哪个 response 更优(0 表示 response_a 更好,1 表示 response_b 更好)。
  • 可扩展
    • 多选对比:responses: ["A","B","C"] + label: 2
    • 打分式:score_a: 4.5, score_b: 3.2

2.2 常见示例规模

  • 中等规模:1–5 万对(可用人工标注或半自动筛选)
  • 大规模:5–20 万对(用于更严格的排序和奖励信号)

建议:初期可先收集 2–3 万对,高质量人工标注;后期再扩充并加入模型自标反馈(例如用当前策略生成对比对,再由人审核)。

3. PPO(强化学习微调)

3.1 数据格式

PPO 环节并不存储单一固定的数据集,而是在每次训练迭代(rollout)中动态生成:

  1. Prompt Batch:事先准备的一批 prompt(与 SFT 相同格式或专门设计的评测提示)。
  2. Policy Outputs:当前模型(Policy)对每个 prompt 生成的多条候选 completion
  3. Reward Scores:用 RM 或其它函数(如安全检测、相似度、算术准确度)对每条候选打分。
  4. Advantage / Return:根据 reward 及折扣率(γ)计算出的优势值,用于 PPO 更新。
rollout[0]:prompt: "如何写求职信?"responses: ["版本A", "版本B", ...]rewards: [1.2, -0.3, ...]advantages: [0.8, -0.5, ...]
rollout[1]:prompt: "巴黎旅游推荐?"...
  • 存储方式
    • 训练过程中可按 epoch 暂存到内存或中间文件;
    • 完成后可归档为带 rewardsadvantages 的 JSONL 或二进制格式,用于后续分析和复现。

3.2 常见示例规模

  • Rollout 大小:每次迭代通常采集 1–5K 个 prompt,每个 prompt 下 1–4 条生成,共 5K–2W 条样本。
  • 训练轮次:典型 100–500 个迭代,总样本量可达数十万条。

在 PPO 中,数据量并不是一次性全部收集好的,而是与训练进度交替生成并马上用来更新策略。

四、总结对比

环节格式要素常见规模数据来源
SFT{"prompt","completion"}1e4–1e6 条现有数据集+人工标注
RM{"prompt","response_a","response_b","label"}2e4–2e5 条对人工偏好/模型自标
PPORollout(prompt + response + reward + advantage)每迭代 5e3–2e4 条,累计 1e5–5e5动态生成+RM 评分
  • SFT:打好「基本功」,让模型学会“如何回答”
  • RM:教会模型“如何区分好坏回答”
  • PPO:通过强化学习,最大化实际奖励信号,进一步提升模型在真实任务中的表现
http://www.xdnf.cn/news/905761.html

相关文章:

  • 光纤采集系统
  • grafana-mcp-analyzer:基于 MCP 的轻量 AI 分析监控图表的运维神器!
  • 【计算机网络】HTTP
  • 安徽省N1 叉车司机考试题及答案解析
  • webui无法注册如何配置
  • volka 25个短语动词
  • Android动态广播注册收发原理
  • (4-point Likert scale)4 点李克特量表是什么
  • 基于cornerstone3D的dicom影像浏览器 第二十九章 自定义菜单组件
  • openvino使用教程
  • LangChain【7】之工具创建和错误处理策略
  • Linux 内核性能分析确保成效的关键知识点总结
  • Redis 过期了解
  • ​​TLV4062-Q1​​、TLV4082-Q1​​迟滞电压比较器应用笔记
  • MySQL 高级学习篇
  • 【SpringBoot自动化部署】
  • 【WebSocket】SpringBoot项目中使用WebSocket
  • 主流定位技术:Zigbee、蓝牙、UWB、RFID、5G通信介绍及对比
  • Day 41 训练
  • 鸿蒙图片缓存(一)
  • 2025年7月-12月【CISP】考试计划时间
  • 全新Xsens Animate版本是迄今为止最大的软件升级,提供更清晰的数据、快捷的工作流程以及从录制开始就更直观的体验
  • C++11 Move Constructors and Move Assignment Operators 从入门到精通
  • 现代Web安全实践:基于Token与Refresh Token的单点登录(SSO)实现
  • Java常用的判空方法
  • 数据库学习(一)——MySQL基础
  • 信息化安全与自主可控需求:国产飞腾D2000 VPX3U主板设计与实践
  • 多种风格导航菜单 HTML 实现(附源码)
  • 增量式网络爬虫通用模板
  • 嵌入式学习之系统编程(十一)网络编程之协议头,测试命令及工具