当前位置：首页 > web >正文

机器学习学习报告

web 2025/8/15 5:30:10

一、机器学习的定义

机器学习是通过处理特定任务，以大量经验为基础，依据一定的评判标准，分析经验数据，从而使任务完成得更好的过程。

二、机器学习的基本流程

机器学习的基本流程可概括为：基于历史数据进行训练，得到模型，再将新的输入属性输入模型，从而对未知的新数据进行预测。这一过程本质上是从经验中归纳规律，进而运用规律预测未来问题。

三、机器学习的应用领域

机器学习的应用领域十分广泛，主要包括模式识别、计算机视觉、数据挖掘、语音识别、统计学习、自然语言处理等。例如 Google Translate（谷歌翻译）就是自然语言处理领域应用机器学习的典型案例。

四、机器学习的基本术语

数据集：数据记录的集合称为一个 “数据集”（data set）。
样本：数据集中每条记录是关于一个事件或对象的描述，称为 “样本”。
特征（属性）：反映事件或对象在某方面的表现或性质的事项，例如 “色泽”。如下表中 “色泽”“根蒂”“敲声” 均为特征：

编号	色泽	根蒂	敲声
1	青绿	蜷缩	浊响
2	乌黑	蜷缩	沉闷
3	乌黑	蜷缩	浊响
4	青绿	蜷缩	沉闷

属性空间：属性张成的空间称为 “属性空间” 或 “样本空间”。
向量表示：一般地，令D={x1,x2,…,xm}表示包含m个示例的数据集，每个样本由d个属性描述，则每个样本xi=(xi1,xi2,…,xid)是d维样本空间X中的一个向量，d称为样本xi的 “维数”。
训练集：机器学习中用于训练模型的数据集合，包含标记信息。如下表就是一个关于 “好瓜” 判断的训练集，其中 “好瓜” 一列即为标记信息：

编号	色泽	根蒂	敲声	纹理	脐部	触感	密度	含糖率	好瓜
1	青绿	蜷缩	浊响	清晰	凹陷	硬滑	0.697	0.46	是
2	乌黑	蜷缩	沉闷	清晰	凹陷	硬滑	0.774	0.376	是
3	乌黑	蜷缩	浊响	清晰	凹陷	硬滑	0.634	0.264	是
4	青绿	蜷缩	沉闷	清晰	凹陷	硬滑	0.608	0.318	是
5	浅白	蜷缩	浊响	清晰	凹陷	硬滑	0.556	0.215	是
6	青绿	稍蜷	浊响	清晰	稍凹	软粘	0.403	0.237	是
7	乌黑	稍蜷	浊响	稍糊	稍凹	软粘	0.481	0.149	是
8	乌黑	稍蜷	浊响	清晰	稍凹	硬滑	0.437	0.211	是
9	乌黑	稍蜷	沉闷	稍糊	稍凹	硬滑	0.666	0.091	否
10	青绿	硬挺	清脆	清晰	平坦	软粘	0.243	0.267	否
11	浅白	硬挺	清脆	模糊	平坦	硬滑	0.245	0.057	否
12	浅白	蜷缩	浊响	模糊	平坦	软粘	0.343	0.099	否
13	青绿	稍蜷	浊响	稍糊	凹陷	硬滑	0.639	0.161	否
14	浅白	稍蜷	沉闷	稍糊	凹陷	硬滑	0.657	0.198	否

测试集：机器学习中用于测试模型的数据集合。如下表中 “好瓜” 一列的结果未知，可作为测试集来检验模型的预测效果：

编号	色泽	根蒂	敲声	纹理	脐部	触感	密度	含糖率	好瓜
15	乌黑	稍蜷	浊响	清晰	稍凹	软粘	0.36	0.37	？
16	浅白	蜷缩	浊响	模糊	平坦	硬滑	0.593	0.042	？
17	青绿	蜷缩	沉闷	稍糊	稍凹	硬滑	0.719	0.103	？

五、机器学习的主要类型

监督学习：利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，其数据集由 “正确答案”（标记）组成。监督学习又可分为分类和回归：
- 分类：机器学习模型输出的结果被限定为有限的一组值，即离散型数值。例如判断西瓜是否为好瓜，输出结果为 “是” 或 “否”。
- 回归：机器学习模型的输出可以是某个范围内的任何数值，即连续型数值。例如预测房屋价格，价格可以是某个范围内的任意数值。
无监督学习：提供数据集合但是不提供标记信息的学习过程。聚类是无监督学习的一种重要算法，例如将样本分成若干类。此外，无监督学习还可应用于关联分析，如分析向购买尿布的人推荐葡萄酒是否会促使其购买。
集成学习：通过构建并结合多个学习器来完成学习任务，以提高学习性能。

六、模型评估与选择

评估指标
- 错误率：分类错误的样本数占样本总数的比例。
- 精度：1 减去错误率。
- 残差：学习器的实际预测输出与样本的真实输出之间的差异。
- 训练误差（经验误差）：学习器在训练集上的误差。
- 泛化误差：学习器在新样本上的误差。
- 损失函数：用来衡量模型预测误差大小的函数，损失函数越小，模型越好。
模型常见问题
- 欠拟合：模型没有很好地捕捉到数据特征、特征集过小导致模型不能很好地拟合数据，本质上是对数据特征学习不够。
- 过拟合：把训练数据学习得太彻底，以至于把噪声数据的特征也学习到了，特征集过大，导致在后期测试时不能够很好地识别数据，不能正确分类，模型泛化能力太差。
过拟合与欠拟合的处理方式
- 过拟合的处理方式：增加训练数据；降维，即丢弃一些不能帮助正确预测的特征；采用正则化技术，保留所有特征，但减少参数的大小；使用集成学习方法，把多个模型集成在一起，降低单一模型的过拟合风险。
- 欠拟合的处理方式：添加新特征，当特征不足或者现有特征与样本标签的相关性不强时，模型容易出现欠拟合；增加模型复杂度，简单模型的学习能力较差，通过增加模型的复杂度可以使模型拥有更强的拟合能力；减小正则化系数，正则化是用来防止过拟合的，但当模型出现欠拟合现象时，则需要有针对性地减小正则化系数。
选择模型的基本原则
- 奥卡姆剃刀原理：“如无必要，勿增实体”，即 “简单有效原理”。在所有可能选择的模型中，应该选择能够很好地解释已知数据，并且十分简单的模型。如果简单的模型已经够用，不应该一味地追求更小的训练误差，而把模型变得越来越复杂。
- 没有免费的午餐（No Free Lunch，NFL）：对于基于迭代的最优化算法，不存在某种算法对所有问题（有限的搜索空间内）都有效。如果一个算法对某些问题有效，那么它一定在另外一些问题上比纯随机搜索算法更差。在脱离实际意义情况下，空泛地谈论哪种算法好毫无意义，要谈论算法优劣必须针对具体学习问题。
  七、模型评估方法
- 留出法：直接将数据集D划分为两个互斥的部分，其中一部分作为训练集S，另一部分用作测试集T。通常训练集和测试集的比例为 70%、30%。划分时需注意：尽可能保持数据分布的一致性，在分类任务中，保留类别比例的采样方法称为 “分层采样”；采用若干次随机划分避免单次使用留出法的不稳定性。
- 交叉验证法：先将数据集D划分为k个大小相似的互斥子集，每次采用k−1个子集的并集作为训练集，剩下的那个子集作为测试集。进行k次训练和测试，最终返回k个测试结果的均值，又称为 “k折交叉验证”。
- 八、模型评估的其他重要指标
- 相关术语
  - TP（True positive，真正例）：将正类预测为正类数。
  - FP（False positive，假正例）：将反类预测为正类数。
  - TN（True negative，真反例）：将反类预测为反类数。
  - FN（False negative，假反例）：将正类预测为反类数。
- 查准率（精确率）P 和查全率（召回率）R
  - 查准率P=TP+FPTP
  - 查全率R=TP+FNTP
  - 一般来说，查准率P高时，查全率R往往偏低；而查全率R高时，查准率P往往偏低。
- P-R 图：直观地显示出学习器在样本总体上的查全率、查准率。在进行比较时，若一个学习器的 P-R 曲线被另一个学习器的曲线完全 “包住”，则可断言后者的性能优于前者；如果两个学习器的 P-R 曲线发生了交叉，则难以一般性地断言两者孰优孰劣。