当前位置: 首页 > web >正文

机器学习学习报告

一、机器学习的定义

机器学习是通过处理特定任务,以大量经验为基础,依据一定的评判标准,分析经验数据,从而使任务完成得更好的过程。

二、机器学习的基本流程

机器学习的基本流程可概括为:基于历史数据进行训练,得到模型,再将新的输入属性输入模型,从而对未知的新数据进行预测。这一过程本质上是从经验中归纳规律,进而运用规律预测未来问题。

三、机器学习的应用领域

机器学习的应用领域十分广泛,主要包括模式识别、计算机视觉、数据挖掘、语音识别、统计学习、自然语言处理等。例如 Google Translate(谷歌翻译)就是自然语言处理领域应用机器学习的典型案例。

四、机器学习的基本术语

  1. 数据集:数据记录的集合称为一个 “数据集”(data set)。
  2. 样本:数据集中每条记录是关于一个事件或对象的描述,称为 “样本”。
  3. 特征(属性):反映事件或对象在某方面的表现或性质的事项,例如 “色泽”。如下表中 “色泽”“根蒂”“敲声” 均为特征:

编号色泽根蒂敲声
1青绿蜷缩浊响
2乌黑蜷缩沉闷
3乌黑蜷缩浊响
4青绿蜷缩沉闷

  1. 属性空间:属性张成的空间称为 “属性空间” 或 “样本空间”。
  2. 向量表示:一般地,令D={x1​,x2​,…,xm​}表示包含m个示例的数据集,每个样本由d个属性描述,则每个样本xi​=(xi1​,xi2​,…,xid​)是d维样本空间X中的一个向量,d称为样本xi​的 “维数”。
  3. 训练集:机器学习中用于训练模型的数据集合,包含标记信息。如下表就是一个关于 “好瓜” 判断的训练集,其中 “好瓜” 一列即为标记信息:

编号色泽根蒂敲声纹理脐部触感密度含糖率好瓜
1青绿蜷缩浊响清晰凹陷硬滑0.6970.46
2乌黑蜷缩沉闷清晰凹陷硬滑0.7740.376
3乌黑蜷缩浊响清晰凹陷硬滑0.6340.264
4青绿蜷缩沉闷清晰凹陷硬滑0.6080.318
5浅白蜷缩浊响清晰凹陷硬滑0.5560.215
6青绿稍蜷浊响清晰稍凹软粘0.4030.237
7乌黑稍蜷浊响稍糊稍凹软粘0.4810.149
8乌黑稍蜷浊响清晰稍凹硬滑0.4370.211
9乌黑稍蜷沉闷稍糊稍凹硬滑0.6660.091
10青绿硬挺清脆清晰平坦软粘0.2430.267
11浅白硬挺清脆模糊平坦硬滑0.2450.057
12浅白蜷缩浊响模糊平坦软粘0.3430.099
13青绿稍蜷浊响稍糊凹陷硬滑0.6390.161
14浅白稍蜷沉闷稍糊凹陷硬滑0.6570.198

  1. 测试集:机器学习中用于测试模型的数据集合。如下表中 “好瓜” 一列的结果未知,可作为测试集来检验模型的预测效果:

编号色泽根蒂敲声纹理脐部触感密度含糖率好瓜
15乌黑稍蜷浊响清晰稍凹软粘0.360.37
16浅白蜷缩浊响模糊平坦硬滑0.5930.042
17青绿蜷缩沉闷稍糊稍凹硬滑0.7190.103

五、机器学习的主要类型

  1. 监督学习:利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,其数据集由 “正确答案”(标记)组成。监督学习又可分为分类和回归:
    • 分类:机器学习模型输出的结果被限定为有限的一组值,即离散型数值。例如判断西瓜是否为好瓜,输出结果为 “是” 或 “否”。
    • 回归:机器学习模型的输出可以是某个范围内的任何数值,即连续型数值。例如预测房屋价格,价格可以是某个范围内的任意数值。
  2. 无监督学习:提供数据集合但是不提供标记信息的学习过程。聚类是无监督学习的一种重要算法,例如将样本分成若干类。此外,无监督学习还可应用于关联分析,如分析向购买尿布的人推荐葡萄酒是否会促使其购买。
  3. 集成学习:通过构建并结合多个学习器来完成学习任务,以提高学习性能。

六、模型评估与选择

  1. 评估指标
    • 错误率:分类错误的样本数占样本总数的比例。
    • 精度:1 减去错误率。
    • 残差:学习器的实际预测输出与样本的真实输出之间的差异。
    • 训练误差(经验误差):学习器在训练集上的误差。
    • 泛化误差:学习器在新样本上的误差。
    • 损失函数:用来衡量模型预测误差大小的函数,损失函数越小,模型越好。
  2. 模型常见问题
    • 欠拟合:模型没有很好地捕捉到数据特征、特征集过小导致模型不能很好地拟合数据,本质上是对数据特征学习不够。
    • 过拟合:把训练数据学习得太彻底,以至于把噪声数据的特征也学习到了,特征集过大,导致在后期测试时不能够很好地识别数据,不能正确分类,模型泛化能力太差。
  3. 过拟合与欠拟合的处理方式
    • 过拟合的处理方式:增加训练数据;降维,即丢弃一些不能帮助正确预测的特征;采用正则化技术,保留所有特征,但减少参数的大小;使用集成学习方法,把多个模型集成在一起,降低单一模型的过拟合风险。
    • 欠拟合的处理方式:添加新特征,当特征不足或者现有特征与样本标签的相关性不强时,模型容易出现欠拟合;增加模型复杂度,简单模型的学习能力较差,通过增加模型的复杂度可以使模型拥有更强的拟合能力;减小正则化系数,正则化是用来防止过拟合的,但当模型出现欠拟合现象时,则需要有针对性地减小正则化系数。
  4. 选择模型的基本原则
    • 奥卡姆剃刀原理:“如无必要,勿增实体”,即 “简单有效原理”。在所有可能选择的模型中,应该选择能够很好地解释已知数据,并且十分简单的模型。如果简单的模型已经够用,不应该一味地追求更小的训练误差,而把模型变得越来越复杂。
    • 没有免费的午餐(No Free Lunch,NFL):对于基于迭代的最优化算法,不存在某种算法对所有问题(有限的搜索空间内)都有效。如果一个算法对某些问题有效,那么它一定在另外一些问题上比纯随机搜索算法更差。在脱离实际意义情况下,空泛地谈论哪种算法好毫无意义,要谈论算法优劣必须针对具体学习问题。

      七、模型评估方法

    • 留出法:直接将数据集D划分为两个互斥的部分,其中一部分作为训练集S,另一部分用作测试集T。通常训练集和测试集的比例为 70%、30%。划分时需注意:尽可能保持数据分布的一致性,在分类任务中,保留类别比例的采样方法称为 “分层采样”;采用若干次随机划分避免单次使用留出法的不稳定性。
    • 交叉验证法:先将数据集D划分为k个大小相似的互斥子集,每次采用k−1个子集的并集作为训练集,剩下的那个子集作为测试集。进行k次训练和测试,最终返回k个测试结果的均值,又称为 “k折交叉验证”。
    • 八、模型评估的其他重要指标

    • 相关术语
      • TP(True positive,真正例):将正类预测为正类数。
      • FP(False positive,假正例):将反类预测为正类数。
      • TN(True negative,真反例):将反类预测为反类数。
      • FN(False negative,假反例):将正类预测为反类数。
    • 查准率(精确率)P 和查全率(召回率)R
      • 查准率P=TP+FPTP​
      • 查全率R=TP+FNTP​
      • 一般来说,查准率P高时,查全率R往往偏低;而查全率R高时,查准率P往往偏低。
    • P-R 图:直观地显示出学习器在样本总体上的查全率、查准率。在进行比较时,若一个学习器的 P-R 曲线被另一个学习器的曲线完全 “包住”,则可断言后者的性能优于前者;如果两个学习器的 P-R 曲线发生了交叉,则难以一般性地断言两者孰优孰劣。
http://www.xdnf.cn/news/17892.html

相关文章:

  • 考研408《计算机组成原理》复习笔记,第四章(2)——指令寻址和数据寻址
  • 飞算JavaAI:革新Java开发体验的智能助手
  • 19. 什么是 TypedArray
  • buildroot 简单介绍
  • LeetCode Day5 -- 二叉树
  • 【LeetCode】6. Z 字形变换
  • 【R语言】RStudio 中的 Source on Save、Run、Source 辨析
  • 热门手机机型重启速度对比
  • Vue项目生产环境性能优化实战指南
  • 相机按键功能解析
  • python学习DAY40打卡
  • Easysearch 数据迁移之 INFINI Gateway
  • 天文与航天领域专业计算库介绍
  • Java 大视界 -- Java 大数据机器学习模型在金融资产配置优化与风险收益平衡中的应用(395)
  • 使用dify搭建hr简历助手-上传简历-对接飞书ai表格
  • 八月补丁星期二:微软修复 111 个漏洞
  • Excel怎么筛选重复项?【图文详解】查找/删除重复项?查找重复项公式?如何去重?
  • 飞凌OK3568开发板QT应用程序编译流程
  • HTML5 Canvas实现数组时钟代码,适用于wordpress侧边栏显示
  • C# 反射和特性(元数据和反射)
  • pycharm配置连接服务器
  • 服务器查看 GPU 占用情况的方法
  • 室外 3DVG 基准
  • C# 多线程:并发编程的原理与实践
  • 对线面试官之幂等和去重
  • Python图像处理基础(十三)
  • Ubuntu 20.04 虚拟机安装完整教程:从 VMware 到 VMware Tools
  • 【前端八股文面试题】【JavaScript篇8】作用域链介绍?
  • VMD+皮尔逊+降噪+重构(送报告+PPT)Matlab程序
  • 自动曝光算法参考