【漫话机器学习系列】239.训练错误率(Training Error Rate)
机器学习基础概念 | 训练错误率(Training Error Rate)详解
在机器学习模型训练过程中,评估模型性能是至关重要的一个环节。其中,训练错误率(Training Error Rate) 是最基础也最重要的性能指标之一。
本文将结合公式推导,图解说明,全面讲解训练错误率的含义、公式来源及实际应用。
一、什么是训练错误率?
训练错误率,是指模型在训练数据集上预测错误的比例。
也就是说,模型在自己已经“见过”的样本上,预测失败的次数占总样本数的比例。
在数学上,训练错误率是所有训练样本中被错误分类的样本数与总训练样本数之比。
二、训练错误率公式详解
在实际计算中,训练错误率通常使用如下公式表示:
其中各个符号的含义如下:
符号 | 说明 |
---|---|
n | 训练数据集中样本的总数量 |
第 iii 个样本的真实标签(Ground Truth) | |
第 iii 个样本的模型预测标签 | |
指示函数,若括号内条件成立,则取值为 1,否则为 0 |
图示解释
根据配图中的标注,公式可以这样理解:
-
:
表示对所有观测直个数 n 取平均。 -
:
将每一个样本的判断结果累加起来。 -
:
如果第 i 个样本的预测值和真实值不一致(即预测错误),指示函数返回 1;否则返回 0。
最终的结果就是:预测错误的次数 / 总预测次数。
在图中也以直观的语言标注出来:
三、为什么需要训练错误率?
-
初步检测模型是否学习到了数据规律
如果训练错误率非常高,说明模型没有学好,存在欠拟合问题。 -
辅助调试模型参数
训练错误率可以帮助我们调整模型的复杂度(比如增加神经网络层数、选择更复杂的模型、调整特征数量等)。 -
作为过拟合的判断依据之一
当训练错误率很低,但测试错误率很高时,可能说明模型发生了过拟合(Overfitting)。
四、训练错误率与其他指标的区别
指标 | 含义 | 适用阶段 |
---|---|---|
训练错误率 | 在训练数据集上预测错误的比例 | 训练过程中的性能评估 |
测试错误率 | 在测试数据集上预测错误的比例 | 泛化能力评估 |
验证错误率 | 在验证集上预测错误的比例,用于调参 | 训练过程中交叉验证 |
特别注意:仅凭训练错误率小,不能说明模型好。机器学习的真正目标是让模型在新数据(测试集或实际应用)上表现良好!
五、简单例子说明
假设我们有如下训练集:
编号 | 真实标签 ( | 模型预测 ( |
---|---|---|
1 | 正确 (1) | 正确 (1) |
2 | 正确 (1) | 错误 (0) |
3 | 错误 (0) | 错误 (0) |
4 | 正确 (1) | 错误 (0) |
5 | 错误 (0) | 正确 (1) |
可以计算:
-
总样本数 n = 5
-
错误预测次数 = 样本 2、4、5(共 3 次)
所以,训练错误率为:
即60%的训练样本被预测错误。
六、总结
-
训练错误率是衡量模型在训练集上拟合程度的基本指标。
-
计算公式通过指示函数对错误预测计数,并对样本总数归一化。
-
在训练中需要关注训练错误率,但更重要的是同时监控测试错误率,防止模型过拟合或欠拟合。
正确理解并使用训练错误率,有助于我们构建更准确、可靠的机器学习模型。
如果你觉得本文对你有帮助,欢迎点赞 👍、收藏 ⭐、评论 💬!