当前位置: 首页 > news >正文

推荐系统-数据分割、性能验证

推荐系统基础概念

  1. 前言

    作者根据开源项目 gorse 的每一步提交, 系统性学习推荐系统架构组成以及gorse中使用的推荐算法的实现。 通过参考算法文档以及代码实现,作者对gorse的学习过程以及进度 与 博客发布的时间线保持一致

  2. 数据集分割

    1. 原因

      推荐系统的根本任务是学习一个函数 f:(U,I)→Rf: (\mathcal{U}, \mathcal{I}) \to \mathbb{R}f:(U,I)R,该函数能够预测用户 U\mathcal{U}U 对物品 I\mathcal{I}I 的偏好(例如评分)

      然而,我们的最终目标是最小化模型在未观测到的数据上的误差,即泛化误差。一个模型如果在训练集上表现优异,但在未见数据上表现糟糕,则称之为过拟合 (Overfitting)。它过度学习了训练数据中的特有模式乃至噪声,而未能捕捉到底层的、具有普适性的偏好规律。

      因此,数据集划分的根本目的,就是从有限的训练数据中,模拟出未见数据的场景,从而对模型的泛化能力进行可靠的估计

    2. 常见数据划分优缺点

      • 留出法

        这是最简单直接的方法。它从原始数据集中随机抽取一部分(例如80%)作为训练集,剩下的一部分(20%)作为测试集。

        大致流程:

        对数据集 D\mathcal{D}D 进行一次性的、互斥的划分,形成训练集 D∗train\mathcal{D}*{train}Dtrain 和测试集 D∗test\mathcal{D}*{test}Dtest,满足 D∗train∩D∗test=∅\mathcal{D}*{train} \cap \mathcal{D}*{test} = \emptysetDtrainDtest=D∗train∪D∗test=D\mathcal{D}*{train} \cup \mathcal{D}*{test} = \mathcal{D}DtrainDtest=D

        D∗train\mathcal{D}*{train}Dtrain 上训练模型 MMM,之后在 D∗test\mathcal{D}*{test}Dtest 上评估 MMM 的性能,其结果作为对泛化误差的估计。*

        • 优点:现简单,计算开销小,尤其适合在数据量非常庞大的场景下进行快速实验和验证。
        • 缺点:单次随机划分的结果带有很强的偶然性。可能某一次划分恰好把一些“困难”或“简单”的样本都分到了测试集中,从而导致评估结果出现偏差。
      • K折交叉验证

        为了克服留出法的偶然性,它将整个数据集分成 K 个大小相似、互不相交的子集(称为“折”)。然后进行 K 次训练和评估,每次都选择其中 1 个折作为测试集,剩下的 K-1 个折合并作为训练集。最后,将 K 次的评估结果取平均值,作为模型的最终性能指标。

        大致流程

        将数据集 D\mathcal{D}D 随机划分为 K 个大小近似相等的互斥子集(折,Folds): D1,D2,…,DK\mathcal{D}_1, \mathcal{D}_2, \dots, \mathcal{D}_KD1,D2,,DK

        进行 K 轮迭代,对于第 k∈{1,…,K}k \in \{1, \dots, K\}k{1,,K} 轮:

        • 令测试集为 Dtest(k)=Dk\mathcal{D}_{test}^{(k)} = \mathcal{D}_kDtest(k)=Dk

        • 令训练集为 Dtrain(k)=D∖Dk\mathcal{D}_{train}^{(k)} = \mathcal{D} \setminus \mathcal{D}_kDtrain(k)=DDk

        • Dtrain(k)\mathcal{D}_{train}^{(k)}Dtrain(k) 上训练模型 MkM_kMk,并在 Dtest(k)\mathcal{D}_{test}^{(k)}Dtest(k) 上计算其性能指标 ϵk\epsilon_kϵk

        最终的性能估计为 K 轮指标的均值。同时,也可以计算指标的标准差,以衡量模型性能的稳定性。

        • 优点:充分利用了所有数据,每个样本都有一次机会成为测试数据,使得评估结果更加稳定、可靠,大大降低了单次划分带来的偶然误差。
        • 缺点:计算成本高: 计算开销是留出法的 K 倍。常用的 K 值为 5 或 10。

        参考代码:

        func (set *TrainSet) KFold(k int, seed int64) ([]TrainSet, []TrainSet) {trainFolds := make([]TrainSet, k)testFolds := make([]TrainSet, k)rand.New(rand.NewSource(seed))perm := rand.Perm(set.Length())foldSize := set.Length() / kbegin, end := 0, 0	// todo 数据集划分for i := 0; i < k; i++ {end += foldSizeif i < set.Length()%k {end++}// Test settestIndex := perm[begin:end]testFolds[i].interactionUsers = selectInt(set.interactionUsers, testIndex)testFolds[i].interactionItems = selectInt(set.interactionItems, testIndex)testFolds[i].interactionRatings = selectFloat(set.interactionRatings, testIndex)// Train settrainIndex := concatenate(perm[0:begin], perm[end:set.Length()])trainFolds[i].interactionUsers = selectInt(set.interactionUsers, trainIndex)trainFolds[i].interactionItems = selectInt(set.interactionItems, trainIndex)trainFolds[i].interactionRatings = selectFloat(set.interactionRatings, trainIndex)begin = end}return trainFolds, testFolds
        }
        
      • 留一法交叉验证

        这是K折交叉验证的一种极端情况,即 K 的值等于数据集中样本的总数 N。在推荐场景下,这通常意味着每次只留下一个用户的某一次交互记录作为测试,用该用户的所有其他数据来训练。

        大致流程:

        K-折交叉验证的一个特例,其中 K=NK=NK=N,N 是数据集中样本的总数。

        • 优点:由于几乎所有数据都参与了训练,模型的评估结果偏差极小,最能反映模型在真实数据上的期望性能。
        • 缺点:计算成本极其高昂。如果数据集稍大,执行一次完整的留一法验证将会耗费难以想象的时间。因此,它只适用于数据集规模非常小的场景。
      • 基于时间的划分

        基于时间的划分方法严格按照时间戳来切分数据。例如,选取一个时间点,将此时间点之前的所有数据作为训练集,之后的数据作为测试集。

        大致流程

        严格依据交互发生的时间戳进行划分。

        1. 选取一个时间点 TsplitT_{split}Tsplit

        2. 所有时间戳 t<Tsplitt < T_{split}t<Tsplit 的交互数据构成训练集 Dtrain\mathcal{D}_{train}Dtrain

        3. 所有时间戳 t≥Tsplitt \ge T_{split}tTsplit 的交互数据构成测试集 Dtest\mathcal{D}_{test}Dtest

        • 优点:最能模拟线上真实环境,可以有效评估模型对未来用户行为的预测能力。这是检验模型是否能跟上用户兴趣变化趋势的黄金标准。
        • 适用场景:对于任何具有时序特征的推荐任务(例如电商、新闻、社交媒体),这都是首选的划分方法。
    3. 总结

      根据不同的推荐场景选择合适的划分方法

      划分方法优点缺点主要适用场景
      留出法简单、快速结果偶然性大数据量巨大时的快速实验或初步验证。
      K折交叉验证结果稳定,数据利用率高计算开销相对较大常规的模型选择和评估,是学术界和工业界的标准实践。
      留一法评估偏差小,结果最可靠计算成本极高数据集规模很小,且对评估精度要求极高的罕见情况。
      时间划分最贴近真实应用场景需要数据包含时间信息用户兴趣会随时间变化的场景,如新闻、电商推荐。
  3. 推荐模型性能验证

    模型验证的核心目标是科学地度量模型的泛化能力,确保其在未知数据上的表现符合预期。

    1. 离线评估 (Offline Evaluation)

      离线评估是在模型上线前,使用固定的历史数据集进行的验证。它是成本最低、迭代速度最快的评估方式。

      所有离线评估都必须基于正确的数据集划分,以模拟真实世界的数据不可见性。主要协议包括:

      • 时序划分 (Temporal Split): 业界标准。按时间切分,用过去的数据训练,预测未来的数据。这是唯一能在线下可靠模拟线上环境的方法。

      • K-折交叉验证 (K-Fold Cross-Validation): 学术界标准。适用于静态、非时序数据集,通过多次划分求平均来获得鲁棒的评估结果。

      • 留出法 (Hold-out): 用于超大规模数据集的快速验证,但结果稳定性较差。

      核心评估指标 (Key Metrics)

      根据推荐任务的不同,我们关注的指标也不同。

      1. 评分预测 (Rating Prediction) 任务

        这类任务的目标是预测用户对物品的具体评分。

        • 平均绝对误差 (Mean Absolute Error, MAE):

          它衡量的是预测评分与真实评分之间差值的绝对值的平均值。MAE对所有误差一视同仁。
          MAE=1∣Dtest∣∑(u,i)∈Dtest∣rui−r^ui∣ \text{MAE} = \frac{1}{|\mathcal{D}_{test}|} \sum_{(u,i) \in \mathcal{D}_{test}} |r_{ui} - \hat{r}_{ui}| MAE=Dtest1(u,i)Dtestruir^ui

        • 均方根误差 (Root Mean Square Error, RMSE):

          与MAE相比,RMSE通过平方项放大了较大预测误差的惩罚,对模型的离谱预测(比如真实评分为1分,预测为5分)更为敏感。
          RMSE=1∣Dtest∣∑(u,i)∈Dtest(rui−r^ui)2 \text{RMSE} = \sqrt{\frac{1}{|\mathcal{D}_{test}|} \sum_{(u,i) \in \mathcal{D}_{test}} (r_{ui} - \hat{r}_{ui})^2} RMSE=Dtest1(u,i)Dtest(ruir^ui)2

        gorse中的相关实现代码:

        func RootMeanSquareError(prediction []float64, truth []float64) float64 {tmp := make([]float64, len(prediction))floats.SubTo(tmp, prediction, truth)	// 误差floats.Mul(tmp, tmp)					// 平方return math.Sqrt(stat.Mean(tmp, nil))	// 平均值开根号 
        }
        func MeanAbsoluteError(prediction []float64, truth []float64) float64 {tmp := make([]float64, len(prediction))	floats.SubTo(tmp, prediction, truth)	// 误差abs(tmp)								// 绝对值 return stat.Mean(tmp, nil)				// 平均值
        }
        
      2. Top-N 排序推荐 (Ranking) 任务

        这是现代推荐系统最核心的任务,即为用户生成一个有序的推荐列表。

        精确率 (Precision@K) / 召回率 (Recall@K):

        • Precision@K: 在推荐的Top-K个物品中,用户真正喜欢的物品所占的比例。它衡量推荐结果的准确性
        • Recall@K: 在用户所有喜欢的物品中,被我们成功推荐到Top-K列表里的比例。它衡量推荐结果的全面性
      3. 分类任务 (Classification) - 如点击率(CTR)预估

        这类任务的目标是预测用户点击某个物品的概率。

        AUC (Area Under the ROC Curve):
        AUC衡量的是模型将正样本排在负样本前面的能力。它不依赖于某个具体的点击阈值,能综合评估模型在所有阈值下的排序能力,是CTR预估模型最核心的离线评估指标之一。

    2. 在线评估(Online Evaluation)

      当模型在离线评估中表现出色后,必须通过在线实验来验证其在真实环境中的效果。这是检验模型商业价值的最终标准。

      • A/B 测试 (A/B Testing):

        • 机制: 将用户随机分成若干组,一组(控制组)使用现有模型A,另一组或多组(实验组)使用新模型B、C等。在一段时间内,比较各组的核心业务指标。
        • 评估指标: 不再是RMSE或NDCG,而是真实的商业KPI,例如:点击率(CTR)、转化率(CVR)、用户停留时长、GMV(商品交易总额)等。
        • 优点: 结果最可靠,具有统计学意义,能直接衡量商业价值。
        • 缺点: 实验周期长,成本高,可能对部分用户造成负面体验。
      • 交叉测试 (Interleaving):

        • 机制: 将两个模型(A和B)的推荐结果混合在一起,展示给同一个用户。通过追踪用户最终点击了来自哪个模型的物品,来快速判断哪个模型更优。
        • 优点: 比A/B测试更敏感,能用更少的时间和流量获得显著的统计结果,非常适合快速迭代多个算法版本。
        • 缺点: 实现相对复杂,主要用于判断模型的相对好坏,难以直接评估对绝对业务指标的影响。
    3. 超越精确度的质量评估 (Qualitative Evaluation)

      一个高精度的模型不一定是一个好的推荐模型。例如,模型可能总是推荐那些热门的、用户早已熟知的物品。因此,还需要关注以下质量指标:

      • 覆盖率 (Coverage): 模型能够推荐出的物品占总物品库的比例。高覆盖率意味着模型具有更好的挖掘长尾物品的能力。
      • 多样性 (Diversity): 推荐列表中的物品是否种类丰富,而不是高度同质化。
      • 新颖性 (Novelty): 模型推荐的物品是否是用户之前不知道的、全新的物品。
      • 惊喜度 (Serendipity): 模型能否推荐出那些用户意想不到、但又确实令其满意的物品。
    4. 总结

      一个成熟的模型验证流程应该是:通过离线评估快速筛选和迭代算法,辅以质量评估确保推荐广度和深度,最终通过在线评估来决策模型是否上线。

      评估范式核心目的主要方法/指标优点缺点
      离线评估快速验证算法的理论性能RMSE, MAE, Precision/Recall@K, NDCG@K, AUC快速、低成本、可重复无法完全模拟真实环境,与线上表现可能存在偏差(Gap)
      在线评估验证模型的真实商业价值A/B测试, 交叉测试结果真实可靠,直接关联业务KPI慢、高成本、有风险
      质量评估衡量推荐的人性化和探索能力覆盖率, 多样性, 新颖性弥补纯精度指标的盲点,提升用户体验通常难以直接量化和优化
http://www.xdnf.cn/news/1106821.html

相关文章:

  • 开源 python 应用 开发(五)python opencv之目标检测
  • (LeetCode 面试经典 150 题 ) 209. 长度最小的子数组(双指针)
  • Vue.js:从 Web 到桌面的跨端实践与技术选型指南
  • 华为IPD(集成产品开发)流程是其研发管理的核心体系
  • pdf合并
  • 基于Java的Markdown到Word文档转换工具的实现
  • 解决‘vue‘ 不是内部或外部命令,也不是可运行的程序
  • css 判断是ios设备 是Safari浏览器
  • el-tree 懒加载 loadNode
  • 柯里化入门:拆拆拆,拆出函数式编程的优雅
  • OSPFv3-一二类LSA
  • Qt:QCustomPlot类介绍
  • Qt窗口:菜单栏
  • 【攻防实战】记一次DC2攻防实战
  • 华为 GaussDB :技术特性、应用局限与市场争议
  • Java使用Langchai4j接入AI大模型的简单使用(二)
  • windows电脑远程win系统服务器上的wsl2
  • OneCode 3.0架构升级:注解驱动与开放接口生态详解
  • 数据结构栈的实现(C语言)
  • 《Java Web程序设计》实验报告五 Java Script学习汇报
  • MS Azure Eventhub 发送 AD log 到cribl
  • 李宏毅(Deep Learning)--(三)
  • Raft 代码分析
  • 人工智能之数学基础:多元逻辑回归算法的矩阵参数求导
  • stack和queue的使用和模拟实现以及了解deque
  • Java基础:泛型
  • 以数据为核心,以业务为导向,漫谈数据可视化应用
  • Leet code 每日一题
  • 【LeetCode】算法详解#8 ---螺旋矩阵
  • 粒子滤波|粒子滤波的相关算法理论介绍