当前位置: 首页 > news >正文

机器学习核心概念与实践笔记

一、机器学习的定义与核心逻辑

机器学习是通过分析大量经验数据,优化特定任务表现的过程,其核心逻辑包括:

  • 以经验数据为基础处理特定任务
  • 建立评判任务完成质量的标准
  • 通过数据迭代使任务表现持续提升

典型案例为 2016 年阿尔法围棋(AlphaGo)以 4:1 战胜李世石,体现了机器学习在复杂决策任务中的应用。

二、基本术语体系

  1. 数据相关术语

    • 数据集:数据记录的集合(如包含多个西瓜特征的表格)
    • 样本:数据集中的每条记录,描述一个对象或事件
    • 特征(属性):描述对象特征的事项(如西瓜的 “色泽”“根蒂”)
    • 属性空间:由所有属性构成的多维空间,每个样本对应空间中的一个向量
  2. 学习过程术语

    • 训练集:含标记信息(如 “好瓜 = 是 / 否”)的数据集,用于模型训练
    • 测试集:用于评估模型性能的数据集,通常包含未知结果的样本
    • 维数:样本包含的属性数量(如含 8 个属性的西瓜样本为 8 维数据)

三、学习任务分类

1. 监督学习

  • 特点:数据集包含 “正确答案”(标记信息)
  • 主要任务:
    • 分类:输出离散型结果(如判断西瓜是否为好瓜)
    • 回归:输出连续型数值(如预测房屋价格)

2. 无监督学习

  • 特点:仅提供数据集合,不包含标记信息
  • 典型任务:
    • 聚类:将样本自动划分为若干类别(如将数据分成 4 类)
    • 关联分析:发现数据间隐藏关联(如 “购买尿布的客户可能购买葡萄酒”)

3. 集成学习

通过构建并结合多个学习器完成任务,提升整体性能

四、模型评估指标

  1. 基础指标

    • 错误率:分类错误的样本占比
    • 精度:1 - 错误率,即分类正确的样本占比
    • 残差:预测输出与真实结果的差异
    • 训练误差:模型在训练集上的误差
    • 泛化误差:模型在新样本上的误差
    • 损失函数:衡量预测偏差的函数,值越小模型性能越好
  2. 分类任务专用指标

    • 混淆矩阵元素:
      • TP(真正例):正类预测为正类
      • FP(假正例):反类预测为正类
      • TN(真反例):反类预测为反类
      • FN(假反例):正类预测为反类
    • 查准率(P):P=TP/(TP+FP),预测为正类的样本中实际正类的比例
    • 查全率(R):R=TP/(TP+FN),实际正类中被正确预测的比例
    • P-R 图:直观展示查准率与查全率的关系,可用于比较不同模型性能

五、模型评估方法

  1. 留出法

    • 将数据集划分为互斥的训练集(通常 70%)和测试集(通常 30%)
    • 注意事项:保持数据分布一致性(如分层采样),多次随机划分以减少偏差
  2. 交叉验证法

    • 将数据集划分为 k 个相似子集,每次用 k-1 个子集训练,1 个子集测试
    • 重复 k 次后取均值作为结果(常用 10 折交叉验证)

六、模型优化:欠拟合与过拟合

  1. 过拟合

    表现:过度学习训练数据,包括噪声特征,泛化能力差解决方法:集成学习欠拟合表现:未能捕捉数据特征,拟合效果差解决方法:减小正则化系数增加模型复杂度添加新特征正则化(减小参数规模)特征降维增加训练数据量

首先,关于什么是机器学习,从本质来讲,机器学习就是让机器处理特定任务时,以大量经验数据为基础,先设定评判任务完成好坏的标准,再通过分析这些数据不断改进,让任务完成得越来越出色。简单说,就是机器从经验中归纳规律,再用规律预测未来;或者用历史数据训练出模型,再用模型对未知新数据进行预测。接着是机器学习的基本术语。

数据集是数据记录的集合,就像一堆关于西瓜的信息汇总起来就是一个西瓜数据集。数据集中的每条记录,比如每一条关于某个西瓜的描述,就是样本。而像西瓜的 “色泽”“根蒂”“敲声” 这些反映对象特征的事项,就是特征或属性。由这些属性构成的空间就是属性空间或样本空间,每个样本都可以看作是这个空间里的一个向量,样本包含的属性数量就是这个向量的维数,比如一个西瓜有 8 个属性,那它就是 8 维向量。、

在机器学习中,数据还分为训练集和测试集。训练集是用来训练模型的,里面包含 “正确答案”,也就是标记信息。比如有个西瓜数据集,不仅有西瓜的各种特征,还有 “好瓜” 这一标记,明确告诉我们这个西瓜是不是好瓜,这就是训练集。测试集则是用来检验模型好坏的,里面的样本没有标记信息,比如一些不知道是不是好瓜的西瓜数据,我们用训练好的模型去预测,以此判断模型的性能。

然后是机器学习的主要类型。第一种是监督学习,它的数据集有 “正确答案”,也就是标记信息,通过这些已知类别的样本调整分类器参数,让其达到理想性能。监督学习又分为分类和回归。分类是模型输出离散的结果,比如判断西瓜是好瓜还是坏瓜,结果只有 “是” 或 “否”;回归则是输出连续的数值,比如预测房屋价格,价格可以是某个范围内的任意数值。

第二种是无监督学习,它只提供数据,没有标记信息。最典型的就是聚类,就是把样本自动分成不同类别,比如根据一些数据特征把它们分成 4 类。无监督学习还有一个有趣的应用,比如分析交易数据发现,购买尿布的人可能也会购买葡萄酒,从而可以进行相关推荐,这就是挖掘数据间的隐藏关联。

第三种是集成学习,它通过构建多个学习器,再把它们结合起来完成学习任务,以此提高整体性能。再来看模型评估与选择。首先是一些基本评估指标,错误率是分类错误的样本数占总样本数的比例,精度则是 1 减去错误率,也就是分类正确的样本比例。残差是模型预测输出和样本真实输出的差异。训练误差是模型在训练集上的误差,泛化误差是模型在新样本上的误差。损失函数用来衡量预测误差,损失函数越小,模型越好,比如用房屋大小拟合直线预测房价,损失函数就衡量这条直线和实际数据的偏差。模型训练中常出现欠拟合和过拟合的问题。欠拟合是模型没抓住数据特征,不能很好地拟合数据,本质是对数据学习不够。过拟合则是模型把训练数据学过头了,连噪声都记住了,导致在新数据上表现很差,泛化能力弱。比如识别树叶时,过拟合的模型可能认为树叶必须有锯齿,于是把没锯齿的树叶判为不是树叶;欠拟合的模型可能觉得绿色的都是树叶,就把绿色的其他东西也当成树叶。

针对过拟合,解决办法有增加训练数据、降维、正则化(减小参数规模)、集成学习等。对于欠拟合,可以添加新特征、增加模型复杂度、减小正则化系数等选择模型有两个重要原则,奥卡姆剃刀原理是说在能很好解释数据的前提下,选更简单的模型;“没有免费的午餐” 理论则指出,没有哪种算法对所有问题都有效,谈论算法好坏要结合具体任务。

模型评估方法主要有留出法和交叉验证法。留出法是把数据集分成互斥的两部分,一部分当训练集(通常 70%),一部分当测试集(通常 30%),要注意保持数据分布一致,多随机划分几次减少偏差。交叉验证法是把数据集分成 k 个相似子集,每次用 k-1 个当训练集,1 个当测试集,重复 k 次,取均值作为结果,常用的是 10 折交叉验证。在分类任务中,有几个关键指标:TP(真正例,把正类判为正类)、FP(假正例,把反类判为正类)、TN(真反例,把反类判为反类)、FN(假反例,把正类判为反类)。根据这些可以算出查准率 P(TP/(TP+FP))和查全率 R(TP/(TP+FN)),通常两者难以同时兼顾。还可以通过 P-R 图直观比较不同模型的查准率和查全率,判断模型性能。

http://www.xdnf.cn/news/1298359.html

相关文章:

  • 解刨HashMap的put流程 <二> JDK 1.8
  • Redis 03 redis 缓存异常
  • Oracle commit之后做了什么
  • OS设备UDID查看方法
  • word——删除最后一页空白页
  • centos部署chrome和chromedriver
  • 【C++】细说继承(2w字详解)
  • OpenCV对椒盐处理后的视频进行均值滤波处理
  • 基于机器学习的文本情感极性分析系统设计与实现
  • [论文阅读] 人工智能 + 软件工程 | 代码变更转自然语言生成中的幻觉问题研究解析
  • 爬虫逆向--Day15--核心逆向案例2(Python逆向实现请求加密、请求堆栈、拦截器关键字)
  • PostgreSQL 免安装
  • SQL详细语法教程(三)mysql的函数知识
  • ActionChains 鼠标操作笔记
  • PyCharm 2025.2:面向工程师的 AI 工具
  • IDEA、Pycharm、DataGrip等激活破解冲突问题解决方案之一
  • C# 中 ArrayList动态数组、List<T>列表与 Dictionary<T Key, T Value>字典的深度对比
  • 20道Vue框架相关前端面试题及答案
  • OpenCV ------图像基础处理(一)
  • Elasticsearch ABAC 配置:基于患者数据的动态访问控制
  • Exif.js获取手机拍摄照片的经纬度
  • 风电功率预测实战:从数据清洗到时空建模​​
  • 机器翻译:回译与低资源优化详解
  • C# 高并发处理方式
  • 【每天一个知识点】生物的数字孪生
  • 如何选择适合工业场景的物联网网关?
  • TWINCAT+COPLEY ethercat配置
  • week1-[分支嵌套]公因数
  • Cherryusb UAC例程对接STM32 SAI播放音乐和录音(上)=>SAI+TX+RX+DMA的配置与音频回环测试
  • C++:浅尝gdb