当前位置：首页 > ds >正文

推荐系统中如果有一个上古精排模型，后续如何优化？

ds 2025/7/4 9:16:09

问题就是这么个问题
主要就着几篇知乎文章做一个笔记小结

1 上古模型的定义与特点

上古模型是推荐系统精排阶段长期增量更新的超强排序模型，类似“老火慢炖的汤”，通过持续吸收海量样本（如数十万亿数据）优化而成。其核心特点包括：

海量参数与样本依赖：
- 参数规模庞大（未压缩时达数百TB），主要集中在商品ID、Query等细粒度特征Embedding上。
- 依赖全人群历史样本训练，导致模型对头部用户（高活、高购买力）打分偏倚，对低活用户或新品打分不公平。
- 好处是吸收了远超新模型的样本量，参数充分收敛，对历史模式捕捉能力强
继承性强，优化受限：
- 热启（加载历史参数）效果好，但从零训练效果暴跌。
- 模型结构可能已过时（如未引入Attention、多任务学习等新技术），但因其数据优势，新模型难以在短期训练中超越
- 结构改动风险高（如替换Attention/DNN层），易破坏原有能力。
特征学习固化：
- 统计特征（如商品30天曝光量）基于全人群数据计算，对子人群（如低活用户）或新品适用性差。
迭代成本高：
- 训练需数周，上线需AB测试验证，ROI低。

针对上古模型的偏差和滞后问题，优化核心思路是 “继承能力，针对性纠偏”，避免结构大改。以下是所有可行方案，原理、过程与优劣对比如下：

原理：将是哪个古模型的参数作为新模型的初始化权重，而非随机初始化，使新模型继承历史知识。
过程：

优劣：

原理：通过回滚历史数据重新训练新模型，消除因样本量差异导致的评估偏差。
过程：

优劣：

原理：用上古模型作为Teacher模型指导轻量化Student模型训练，压缩模型复杂度并继承知识。
过程：

Teacher模型生成软标签（Soft Targets），Student模型学习其输出分布。
结合真实标签设计损失函数：
Loss = α * KL散度(Teacher输出, Student输出) + β * 交叉熵(真实标签, Student输出)。

优劣：

原理：仅修改局部结构并随机初始化该部分参数，其余部分复用老模型权重。
过程：

优劣：

原理：在不改动模型结构的前提下，通过优化多目标分数融合策略提升效果。
过程：

上古模型输出多任务分数（如点击率、时长、点赞率），设计动态加权公式：
Score = Σ w_i * (α_i * Score_i)^β_i
调整权重 w_i 和灵敏度参数 α_i, β_i。
引入帕累托最优解搜索，平衡多目标冲突。

优劣：

原理：针对上古模型积累的偏差（如流行度偏差、位置偏差），设计纠偏模块。
过程：

小模型人群纠偏（如https://zhuanlan.zhihu.com/p/700583067）：
训练独立的小模型校正特定人群的推荐结果，例如对低活用户进行兴趣增强。
对抗学习：
添加对抗网络约束敏感属性（如性别）与预测结果的相关性。
位置偏差解耦：
使用Shallow Tower或PAL框架分离位置因素与用户真实兴趣。

优劣：

主要参考：在老汤模型上分人群微调

方案描述：将精排大模型（老汤模型）的打分输出作为一个特征，与User/Query/Item侧的一些简单特征（如粗粒度ID类特征和简单统计特征）拼接（Concat），然后输入到一个轻量级DNN（称为“小模型”）中。这个小模型仅使用子人群样本从头训练（subpopulation-specific training）。
初始化与特征处理：无需复杂初始化，直接从小样本开始训练。精排大模型的打分特征可以不分桶离散化（实测对效果影响不大）。

优点：

效果：
小模型依赖大模型分进行纠偏，线上全量后取得明显效果（如提升低活用户的CTR/CVR），后续迭代也基于此框架。

解决小模型过度依赖大模型分的问题（限制纠偏天花板）：
直接优化老汤模型本身，通过权重调整区分人群样本。这包括两种版本：

规则版本（简单加权）：
方法：在训练老汤模型时，对子人群样本和主人群样本设置不同权重（如10:1），然后在Batch内归一化权重。梯度优化方向主要由子人群样本主导。
示例：如果Batch中有100条样本（80条主人群、20条子人群），设子人群权重为10，主人群为1，归一化后子人群样本的loss贡献更大。
模型版本（判别器加权）：
方法：在老汤模型上添加一个判别器模型（discriminator），用于学习每条样本属于子人群的概率（domain probability）。基于该概率计算样本权重，并作用于CTR/CVR任务的交叉熵损失（CE Loss）。