当前位置: 首页 > ai >正文

8.14 机器学习(1)

机器学习基础

一、什么是机器学习

定义:让计算机利用大量数据在特定任务上持续改进性能的过程,可以让任务完成的更好。

机器学习的领域很多。

二、机器学习基本术语

数据集、样本、特征(属性)、属性空间、向量表示、训练集(训练模型的数据集合,含标记信息)、测试集(测试模型的数据集合)

三、主要学习任务(以好瓜坏瓜为例子)

  1. 监督学习:已知正确答案和参数,达到要求的学习过程。

    • 分类:输出的结果位有限,离散型(好瓜/坏瓜)。

    • 回归:输出某个范围内任何数值,连续型(房价预测)。

  2. 无监督学习:提供数据集合,不提供有信息的学习过程。

    • 聚类:把样本按相似度分组。

    • 关联分析:尿布 → 葡萄酒推荐。

  3. 集成学习

    ①结合多个弱学习器提升整体性能。

四、模型评估与选择

  1. 误差

    1. 训练误差(经验误差):在训练集上的误差。

    2. 泛化误差:在新样本上的期望误差。

    3. 错误率:错误的样本占样本总数的比例。

    4. 残差:实际预测输出与样本真实输出的差异。

  2. 拟合状态

    1. 欠拟合:模型太简单,训练误差高。

      → 解决:增加特征、提高模型复杂度、减小正则化。

    2. 过拟合:模型太复杂,训练误差低但泛化误差高。

      → 解决:增数据、降维、正则化、集成学习。

    3. 损失函数:衡量模型预测误差大小的函数。(损失函数越小越好)

  3. 评估方法

    1. 留出法:70 % 训练 / 30 % 测试,分层采样。

    2. k 折交叉验证:常用 10 折,取 k 次平均。

  4. 性能指标(二分类)

    1. TP, FP, TN, FN

    2. 查准率 P = TP / (TP+FP)

    3. 查全率 R = TP / (TP+FN)

五、选择模型的原则

奥卡姆剃刀:在可解释数据的前提下选最简单模型。

没有免费午餐(NFL):脱离具体任务谈算法优劣无意义。


机器学习=数据+算法+评估

用经验提升任务性能,警惕欠拟合与过拟合,通过交叉验证和性能指标选择最适合实际问题的简洁模型。

http://www.xdnf.cn/news/17735.html

相关文章:

  • 在IAR Embedded Workbench for Arm中实现NXP S32K3安全调试
  • DeepSeek补全IBM MQ 9.4 REST API 执行命令的PPT
  • 通过网页调用身份证阅读器http websocket方法-湖南步联科技美萍MP999A电子————仙盟创梦IDE
  • Eureka故障处理大汇总
  • FPS游戏时,你的电脑都在干什么(CS2)
  • 融合服务器助力下的电视信息发布直播点播系统革新
  • 零基础数据结构与算法——第七章:算法实践与工程应用-搜索引擎
  • Qt基本控件
  • 容器化与微服务:一场关于“敏捷”与“秩序”的十年战争
  • pip和dnf只下载不安装离线包
  • 重塑隐私边界,微算法科技(NASDAQ:MLGO)开发基于边缘计算的轻量级区块链身份隐私保护方案
  • 解锁 Docker:一场从入门到源码的趣味解谜之旅
  • .Net Core控制台程序连接HGDB并部署到Linux
  • 人工智能概念股:最新投资机会深度解析
  • 《书写范式》——代码如诗,诗娟代码(Python)(附精巧“九九表”生成代码)
  • 基于离散余弦变换的激活水印(DCT-AW)
  • Datawhale AI夏令营第三期多模态RAG方向 Task3
  • git clone 支持在命令行临时设置proxy
  • Redis中灵活结合SET和SETEX的方法及多语言工具库实现
  • iscc2025决赛wp
  • docker load镜像后 名字和标签异常解决
  • [前端算法]排序算法
  • 2023 年全国硕士研究生招生考试真题笔记
  • B站 韩顺平 笔记 (Day 17)
  • MySQL表约束
  • 【新手入门】Android Studio 项目结构拆解,快速理解文件作用!
  • 6 .循环-for
  • 边缘节点 DDoS 防护:CDN 节点的流量清洗与就近拦截方案
  • 会议征稿!IOP出版|第二届人工智能、光电子学与光学技术国际研讨会(AIOT2025)
  • C# 反射和特性(获取Type对象)