当前位置: 首页 > news >正文

【推荐算法】推荐算法演进史:从协同过滤到深度强化学习

在这里插入图片描述

推荐算法演进史:从协同过滤到深度强化学习

      • 一、传统推荐时代:协同过滤的奠基(1990s-2006)
        • 1.1 算法背景:信息爆炸的挑战
        • 1.2 核心算法:协同过滤
        • 1.3 局限性
      • 二、深度学习黎明:神经网络初探(2010-2015)
        • 2.1 算法背景:深度学习的崛起
        • 2.2 奠基模型:Deep Crossing
        • 2.3 NeuralCF:协同过滤的神经网络化
      • 三、特征交叉革命:结构创新浪潮(2016-2017)
        • 3.1 Wide&Deep:记忆与泛化的融合
        • 3.2 DeepFM:自动化特征交叉
        • 3.3 PNN:乘积交互新范式
      • 四、注意力机制时代:用户兴趣建模(2017-2018)
        • 4.1 DIN:动态兴趣网络
        • 4.2 DIEN:兴趣进化网络
      • 五、强化学习前沿:动态环境适应(2018至今)
        • 5.1 DRN:深度强化推荐
        • 5.2 在线学习机制
      • 六、算法效果横向评测
        • 6.1 离线性能对比(Amazon数据集)
        • 6.2 在线业务价值
      • 七、工业应用案例集锦
        • 7.1 淘宝DIN系统
        • 7.2 腾讯视频DeepFM
      • 八、经典面试题与论文
        • 8.1 高频面试题
        • 8.2 必读论文
      • 九、算法优缺点全景分析
        • 9.1 模型能力进化
        • 9.2 优缺点对比
      • 十、未来发展趋势
        • 10.1 技术融合方向
        • 10.2 理论突破前沿
      • 结语:推荐算法的哲学思考

一、传统推荐时代:协同过滤的奠基(1990s-2006)

1.1 算法背景:信息爆炸的挑战

随着互联网内容指数级增长,用户面临信息过载问题。亚马逊在2003年的数据表明:

  • 30%的销售额来自推荐系统
  • 推荐商品转化率是非推荐商品的3倍
    在这里插入图片描述
1.2 核心算法:协同过滤

矩阵分解(MF)成为里程碑:
min ⁡ p , q ∑ ( u , i ) ∈ κ ( r u i − p u T q i ) 2 + λ ( ∣ ∣ p u ∣ ∣ 2 + ∣ ∣ q i ∣ ∣ 2 ) \min_{p,q} \sum_{(u,i) \in \kappa} (r_{ui} - \mathbf{p}_u^T \mathbf{q}_i)^2 + \lambda(||\mathbf{p}_u||^2 + ||\mathbf{q}_i||^2) p,qmin(u,i)κ(ruipuTqi)2+λ(∣∣pu2+∣∣qi2)

  • 用户隐向量 p u \mathbf{p}_u pu:表征用户兴趣
  • 物品隐向量 q i \mathbf{q}_i qi:表征物品特性
用户-物品矩阵
低秩分解
用户隐空间
物品隐空间
1.3 局限性
问题表现案例
冷启动新用户/物品推荐不准新电影推荐失败率>60%
稀疏性长尾物品覆盖不足95%物品获得<10次交互
线性局限无法捕捉复杂关系无法识别“喜欢科幻的程序员也爱科技播客”

💡 转折点:Netflix百万美元悬赏推动算法革命(2006)


二、深度学习黎明:神经网络初探(2010-2015)

2.1 算法背景:深度学习的崛起

ImageNet竞赛中CNN的突破(2012)启发了推荐领域:

  • 神经网络可学习高阶非线性关系
  • Embedding技术可解决稀疏性问题
2.2 奠基模型:Deep Crossing

微软2015年提出首个端到端深度学习推荐系统:

特征
Embedding层
Stacking层
多层ResNet
Scoring层
  • 创新点:残差连接解决梯度消失
  • 效果:广告点击率提升12%
2.3 NeuralCF:协同过滤的神经网络化

y ^ u i = f ( p u , q i ∣ Θ ) \hat{y}_{ui} = f(\mathbf{p}_u, \mathbf{q}_i|\Theta) y^ui=f(pu,qi∣Θ)

  • 用MLP替代点积操作:
    f MLP ( p u , q i ) = σ ( W L ( ⋯ ReLU ( W 1 [ p u ; q i ] ) ) ) f_{\text{MLP}}(\mathbf{p}_u,\mathbf{q}_i) = \sigma(\mathbf{W}_L(\cdots\text{ReLU}(\mathbf{W}_1[\mathbf{p}_u;\mathbf{q}_i]))) fMLP(pu,qi)=σ(WL(ReLU(W1[pu;qi])))
  • 突破:CTR预测AUC提升4.2%

三、特征交叉革命:结构创新浪潮(2016-2017)

3.1 Wide&Deep:记忆与泛化的融合

谷歌2016年提出双路架构:
y ^ = σ ( w w i d e T [ x , ϕ ( x ) ] + w d e e p T α ( L ) + b ) \hat{y} = \sigma(\mathbf{w}_{wide}^T[\mathbf{x},\phi(\mathbf{x})] + \mathbf{w}_{deep}^T\alpha^{(L)} + b) y^=σ(wwideT[x,ϕ(x)]+wdeepTα(L)+b)

  • Wide部分:人工特征交叉(记忆性)
  • Deep部分:MLP学习隐含模式(泛化性)
  • 应用:Google Play下载量提升25%
3.2 DeepFM:自动化特征交叉

华为2017年用FM替代Wide部分:
y F M = ∑ i = 1 d w i x i + ∑ i = 1 d ∑ j = i + 1 d ⟨ v i , v j ⟩ x i x j y_{FM} = \sum_{i=1}^d w_i x_i + \sum_{i=1}^d\sum_{j=i+1}^d \langle \mathbf{v}_i,\mathbf{v}_j\rangle x_i x_j yFM=i=1dwixi+i=1dj=i+1dvi,vjxixj

特征
共享Embedding
FM层
Deep层
输出
  • 优势:自动学习二阶交叉,参数量减少40%
3.3 PNN:乘积交互新范式

上海交大2016年提出乘积层:
z = p u ⊙ q i ( 内积模式 ) \mathbf{z} = \mathbf{p}_u \odot \mathbf{q}_i \quad (\text{内积模式}) z=puqi(内积模式)
z = p u ⊗ q i ( 外积模式 ) \mathbf{z} = \mathbf{p}_u \otimes \mathbf{q}_i \quad (\text{外积模式}) z=puqi(外积模式)

  • 创新:显式构造特征交互矩阵
  • 效果:Criteo数据集AUC达0.839

四、注意力机制时代:用户兴趣建模(2017-2018)

4.1 DIN:动态兴趣网络

阿里2017年首创注意力机制:
α i = exp ⁡ ( v T ReLU ( W [ e i ; e t ] ) ) ∑ j exp ⁡ ( v T ReLU ( W [ e j ; e t ] ) ) \alpha_{i} = \frac{\exp(\mathbf{v}^T\text{ReLU}(\mathbf{W}[\mathbf{e}_i;\mathbf{e}_t]))}{\sum_j \exp(\mathbf{v}^T\text{ReLU}(\mathbf{W}[\mathbf{e}_j;\mathbf{e}_t]))} αi=jexp(vTReLU(W[ej;et]))exp(vTReLU(W[ei;et]))
u = ∑ i α i e i \mathbf{u} = \sum_i \alpha_i \mathbf{e}_i u=iαiei

  • 突破:用户兴趣随目标物品动态变化
  • 成果:淘宝CTR提升20%,GMV提升17%
4.2 DIEN:兴趣进化网络

阿里2018年引入序列建模:

行为序列
GRU层
兴趣状态
AUGRU
兴趣进化
  • 创新:AUGRU(带注意力更新门的GRU)
  • 公式
    h ~ t = ( 1 − α t ) h t − 1 + α t h ~ t \tilde{\mathbf{h}}_t = (1-\alpha_t)\mathbf{h}_{t-1} + \alpha_t \tilde{\mathbf{h}}_t h~t=(1αt)ht1+αth~t
  • 效果:点击率再提升12%

五、强化学习前沿:动态环境适应(2018至今)

5.1 DRN:深度强化推荐

微软2018年提出:
Q ( s , a ) = E [ r t + γ max ⁡ a ′ Q ( s ′ , a ′ ) ] Q(s,a) = \mathbb{E}[r_t + \gamma \max_{a'}Q(s',a')] Q(s,a)=E[rt+γamaxQ(s,a)]

  • 状态 s s s:用户历史行为
  • 动作 a a a:推荐策略
  • 奖励 r r r:用户反馈(点击/购买)
5.2 在线学习机制
用户请求
策略网络
推荐列表
用户反馈
奖励计算
模型更新
  • 创新:双网络结构(在线网络+目标网络)
  • 成效:新闻推荐停留时长提升35%

六、算法效果横向评测

6.1 离线性能对比(Amazon数据集)
模型HR@10NDCG@10训练耗时
MF0.6210.3581x
NeuralCF0.7030.4121.8x
Wide&Deep0.7350.4382.2x
DeepFM0.7620.4672.5x
DIN0.8010.5123.1x
DRN0.8230.5394.3x
6.2 在线业务价值
公司模型核心指标提升
阿里DINGMV +17%
腾讯DeepFMCTR +22%
字节DRN用户时长+28%
美团DIEN订单量+19%

七、工业应用案例集锦

7.1 淘宝DIN系统
  • 架构
    用户行为日志
    Flink实时计算
    特征数据库
    推荐请求
    DIN模型
    推荐结果
  • 特征工程
    • 用户特征:189维(历史点击/购买/收藏)
    • 物品特征:73维(类目/价格/店铺)
  • 成效:双十一GMV增加21亿
7.2 腾讯视频DeepFM
  • 创新:多模态特征融合
    e v = ResNet50 ( 视频帧 ) \mathbf{e}_v = \text{ResNet50}(\text{视频帧}) ev=ResNet50(视频帧)
    e t = BERT ( 标题 ) \mathbf{e}_t = \text{BERT}(\text{标题}) et=BERT(标题)
  • 部署:日均请求量1200亿次,响应<30ms
  • 成果:会员转化率提升18%

八、经典面试题与论文

8.1 高频面试题
  1. Q:MF与NeuralCF的本质区别?
    A:MF是线性点积,NeuralCF用MLP学习非线性交互函数

  2. Q:DIN如何实现兴趣动态变化?
    A:通过目标物品与历史物品的注意力权重:
    α i = f ( e t , e i ) \alpha_i = f(\mathbf{e}_t, \mathbf{e}_i) αi=f(et,ei)

  3. Q:DRN为何需要双网络结构?
    A:避免Q值过估计,目标网络提供稳定训练目标

  4. Q:如何解决Embedding维度爆炸?
    A:混合编码(Hash Trick)+ 分片训练(Sharding)

8.2 必读论文
  1. 矩阵分解:Matrix Factorization Techniques for Recommender Systems
  2. Wide&Deep:Wide & Deep Learning
  3. DeepFM:DeepFM: A Factorization-Machine based Neural Network
  4. DIN:Deep Interest Network
  5. DRN:Deep Reinforcement Learning for List-wise Recommendations

九、算法优缺点全景分析

9.1 模型能力进化
MF
线性交互
NeuralCF
非线性交互
DeepFM
自动特征交叉
DIN
动态兴趣
DRN
长期收益优化
9.2 优缺点对比
模型核心优势主要缺陷
MF可解释性强,计算高效无法捕捉非线性关系
DeepFM自动特征交叉,端到端训练高阶交叉不显式
DIN动态兴趣建模,个性化强序列建模计算量大
DRN长期收益优化,适应环境变化训练不稳定,Reward设计难

十、未来发展趋势

10.1 技术融合方向
  1. 多模态学习
    e = Transformer ( 文本 , 图像 , 视频 ) \mathbf{e} = \text{Transformer}(\text{文本}, \text{图像}, \text{视频}) e=Transformer(文本,图像,视频)
  2. 因果推断:解耦混淆因子
    P ( Y ∣ d o ( X ) ) = ∑ z P ( Y ∣ X , z ) P ( z ) P(Y|do(X)) = \sum_z P(Y|X,z)P(z) P(Ydo(X))=zP(YX,z)P(z)
  3. 联邦学习:隐私保护推荐
    min ⁡ θ ∑ k = 1 K ℓ ( f θ ( x k ) , y k ) \min_\theta \sum_{k=1}^K \ell(f_\theta(x_k), y_k) θmink=1K(fθ(xk),yk)
10.2 理论突破前沿
方向挑战探索模型
可解释性黑盒决策不可信反事实解释网络
公平性消除算法偏见对抗去偏框架
元宇宙推荐3D空间交互神经辐射场推荐

🌟 未来已来:2023年ChatGPT开启生成式推荐新时代,推荐系统正从“过滤信息”向“创造体验”跃迁。


结语:推荐算法的哲学思考

推荐算法的演进本质是人类认知的数字化延伸

  1. 协同过滤:群体智慧的数学表达
  2. 深度学习:神经网络模拟人脑决策
  3. 强化学习:系统与环境的动态博弈

“最好的推荐不是迎合已知,而是启发未知” —— 这不仅是技术挑战,更是对人性的深刻理解。当算法学会在准确性与惊喜度间平衡,在商业价值与用户体验间取舍,它便超越了工具属性,成为连接数字世界与人类需求的智慧桥梁。

http://www.xdnf.cn/news/928045.html

相关文章:

  • 「Java基本语法」代码格式与注释规范
  • 第二十七课:手搓梯度提升树
  • AI掘金时代:探讨如何用价值杠杆撬动付费用户增长
  • 记录下three.js学习过程中不理解问题①
  • 测试(面经 八股)
  • 《真假信号》速读笔记
  • Python爬虫实战:研究Unirest库相关技术
  • 王劲松《人民日报》撰文 重读抗战家书不忘来时路
  • Windows小说阅读软件推荐
  • Linux 文件系统核心:inode 与 block 深度解析(附实战案例与源码级原理)
  • 618来了,推荐京东云服务器
  • ROS C++ 实现消息通信与服务通信
  • 交叉熵损失函数和极大似然估计是什么,区别是什么
  • 关于队列的使用
  • 道路运输安全员考试分为哪些科目,各科目重点考察什么?
  • scratch农场小鸡 2024年全国青少年信息素养大赛 图形化编程 scratch变成挑战赛 复赛真题解析
  • string类型
  • Spring IoC 模块设计文档
  • libiec61850 mms协议异步模式
  • 如何构建船舵舵角和船的航向之间的动力学方程?它是一个一阶惯性环节吗?
  • 抖音怎么下载视频
  • 好未来0520上机考试题1:括号的最大嵌入深度
  • 零基础入门PCB设计 强化篇 第六章(实验——USB拓展坞PCB绘制)
  • Spring注解原理深度解析:从入门到精通
  • 免费 SecureCRT8.3下载、安装、注册、使用与设置
  • c++11线程安全
  • 图片批量格式转换工具
  • pcie 日常问答0604
  • 第一章 无刷电机(BLDC)基础知识
  • 缓冲区溢出