当前位置：首页 > news >正文

【推荐算法】推荐系统核心算法深度解析：协同过滤 Collaborative Filtering

news 2025/6/6 20:08:31

在这里插入图片描述

协同过滤的核心思想是利用群体智慧：
假设：相似用户对物品有相似偏好，相似物品会被相似用户喜欢。
输入：用户-物品交互矩阵（如评分、点击行为）。
输出：预测用户对未交互物品的偏好。

在这里插入图片描述

基于用户的协同过滤（User-Based CF）
- 步骤：
  1. 计算用户相似度（如余弦相似度）
  2. 找到目标用户的K个最近邻（相似用户）
  3. 根据邻居的评分加权预测目标用户评分
    $\hat{r}_{ui} = \bar{r_u} + \frac{\sum_{v \in N(u)} sim(u,v) \cdot (r_{vi} - \bar{r_v})}{\sum_{v \in N(u)} |sim(u,v)|}$

基于物品的协同过滤（Item-Based CF）
- 步骤：
  1. 计算物品相似度（如调整余弦相似度）
  2. 根据目标用户历史交互物品，推荐相似物品
    $\hat{r}_{ui} = \frac{\sum_{j \in S(i)} sim(i,j) \cdot r_{uj}}{\sum_{j \in S(i)} |sim(i,j)|}$

余弦相似度（用户/物品向量夹角）：
$\frac{\mathbf{r_u} \cdot \mathbf{r_v}}{\|\mathbf{r_u}\| \cdot \|\mathbf{r_v}\|}$
缺点：未考虑评分尺度差异。
皮尔逊相关系数（修正尺度偏差）：
$KaTeX parse error: Unexpected end of input in a macro argument, expected '}' at end of input: … \bar{r_v})^2}$
其中 ( I_{uv} ) 是用户 ( u ) 和 ( v ) 共同评分的物品集合。
调整余弦相似度（Item-Based专用）：
$\frac{\sum_{u \in U_{ij}}(r_{ui} - \bar{r_u})(r_{uj} - \bar{r_u})}{\sqrt{\sum_{u \in U_{ij}}(r_{ui} - \bar{r_u})^2} \sqrt{\sum_{u \in U_{ij}}(r_{uj} - \bar{r_u})^2}}$
通过减去用户平均分消除评分偏差。

为解决数据稀疏性，引入隐语义模型（如SVD）：

目标：将用户-物品矩阵 ( R \in \mathbb{R}^{m \times n} ) 分解为：
$\approx P \cdot Q^T, \quad P \in \mathbb{R}^{m \times k}, \ Q \in \mathbb{R}^{n \times k}$
其中 ( k \ll m,n ) 为隐因子维度（如主题、风格）。

优化目标（最小化损失函数）：
$\min_{P,Q} \sum_{(u,i) \in \kappa} (r_{ui} - \mathbf{p_u}^T \mathbf{q_i})^2 + \lambda (\|\mathbf{p_u}\|^2 + \|\mathbf{q_i}\|^2)$
( \kappa ) 为已知评分集合，( \lambda ) 为正则化系数。
求解方法：随机梯度下降（SGD）
$\mathbf{p_u} \leftarrow \mathbf{p_u} + \gamma (e_{ui} \cdot \mathbf{q_i} - \lambda \mathbf{p_u})$
$\mathbf{q_i} \leftarrow \mathbf{q_i} + \gamma (e_{ui} \cdot \mathbf{p_u} - \lambda \mathbf{q_i})$
其中 ( e_{ui} = r_{ui} - \mathbf{p_u}^T \mathbf{q_i} )，( \gamma ) 为学习率。

亚马逊（Item-Based CF）
- 应用场景： “购买此商品的顾客也买了”
- 技术细节：使用改进的余弦相似度，实时更新物品相似矩阵。
Netflix 推荐大赛
- 背景：2006年举办，奖金100万美元。
- 关键发现：
  - 矩阵分解（SVD++）显著优于传统CF
  - 融合时间动态因素（如用户兴趣漂移）提升预测精度
Spotify 音乐推荐
- 混合模型： CF + 内容特征（音频MFCC特征）
- 解决冷启动：新歌曲通过内容特征映射到隐空间。

User-CF 和 Item-CF 如何选择？
- User-CF 适用于用户数少、物品更新快的场景（如新闻推荐）
- Item-CF 适用于物品数少、用户行为稳定的场景（如电商）
如何解决数据稀疏性问题？
- 矩阵分解（SVD, ALS）
- 加入隐式反馈（点击、浏览时长）
- 图神经网络（GNN）聚合高阶邻居信息
冷启动问题有哪些方案？
- 用户冷启动：利用人口统计信息/社交关系
- 物品冷启动：结合内容特征（文本、图像嵌入）
- 系统冷启动：用非个性化推荐（热门榜）过渡