大模型数据处理全流程【实战】数据洞察、数据增强、数据清洗
1. 创建数据集
百度智能云千帆大模型平台
1)创建数据集并拆取所需内容
使用大模型生成SFT精调格式数据
请基于我提供的研报内容生成100个QA对,格式要求:
[问题]: 问题文本
[答案]: 答案文本
研报内容:{{file_content}}
创建数据集
- 大模型拆解功能:通过大模型自动解析文档(PDF/Word),生成问答对格式的数据集
- 数据格式要求:采用SFT精调模式,需保持"问题-答案"的配对结构
- 操作示例:上传研报后自动生成100个问答对,如"2023年营业收入是多少?答案:57.61亿元"
2)创建数据集并上传文档
- 命名规范:中英文数字组合,不超过60字符
- 模式选择:需明确选择有监督微调(SFT)模式
- 付费服务:数据自动挖掘功能需开通付费服务,支持从上传文件中自动提取问答对
3)创建数据集并上传Word文件
- 文件格式:支持单个或多个文件批量上传
- 处理进度:导入过程显示百分比进度(如1%开始)
- 结果验证:完成后可查看详情确认问答对格式是否正确
4)选择数据集并洞察
- 洞察过程
- 耗时:约1-3分钟完成全量数据分析
- 功能支持:
- 字段调整编辑
- 多条件组合筛选(支持10+计算服务)
- 字符数范围筛选(如限制500字以内)
- 多轮对话可视化
- 增强清洗阶段
- 数据增强:通过扩充样本提升模型训练效果
- 清洗内容:
- 异常数据清洗
- 文本去重
- 隐私信息过滤
- 问题-答案配对校验
- 数据清洗
- 任务创建:需指定处理前后数据集版本
- 处理选项:
- 新建处理版本
- 异常清洗(如只有问题无答案的记录)
- 文本标准化处理
- 逻辑顺序:训练前必须完成数据洞察→清洗→增强的全流程