【面试题】领域模型持续预训练数据选取方法
一、概念澄清与问题界定
持续预训练(Continued Pretraining)的本质:在通用预训练模型基础上,使用特定领域数据进行进一步预训练,使模型更好地适应目标领域。这与微调(Finetuning)有本质区别:
- 持续预训练:关注模型整体能力提升,通常使用与初始预训练相同的自监督任务(如MLM),保持模型架构不变
- 微调:针对特定任务优化模型,使用监督学习,可能修改模型输出层结构
核心挑战:如何在有限计算资源下,从海量领域数据中选择最具价值的子集,实现经验风险最小化,平衡"简单样本"(易于学习)和"困难样本"(提供信息增益)。
二、系统性数据选取框架
1. 数据质量评估维度
(1) 领域相关性评估
- 基于嵌入相似度:计算文档与领域种子集的相似度
from sklearn