当前位置: 首页 > news >正文

【机器学习】第二章模型的评估与选择

A.关键概念

2.1 经验误差和过拟合

  1. 经验误差与泛化误差:学习器在训练集上的误差为经验误差,在新样本上的误差为泛化误差

  2. 过拟合:学习器训练过度后,把训练样本自身的一些特点当作所有潜在样本具有一般性质,使得泛化性能下降的现象。过拟合是机器学习面临的关键障碍,无法避免,只能缓和。

2.2 评估方法

  1. 留出法(hold-out):将训练集分为两个互斥的集合,一个作为训练集,另一个作为测试集的评估方法。

    1. 划分不同,得到的结果也不同。所以需要采用若干次随机划分取均值的方法
    2. 若训练集过大,测试集过小,则评估结果不够稳定准确。若测试集过大,训练集过小,则被评估的模型和用完整数据集训练出的模型差别较大,降低了评估结果的保真性。通常将2/3~4/5的样本永远训练,其余的用于测试。
    3. 分层采样:保留类别比例的采样方式。留出法需要分层采样
  2. 交叉验证法: 先将数据集划分为k个大小相似的互斥子集,并保证子集由分层采样得到,然后每次选择k-1个子集的并集作为训练集,余下的子集作为测试集,进行训练测试。可进行k次测试,返回k次测试的均值。

    1. k折交叉验证:k的值影响评估结果,为了强调这一点,进一步把交叉验证法称为 k折交叉验证
    2. 留一法:k 为样本数时的一个特例。
  3. 自助法:给定m个样本的数据集D,我们对其采样产生D‘。每次随机从D中抽取一个样本,将其拷贝放入D’,再放回D,重复m次。约有36.8%的样本没有没有出现在D‘,留作训练集

2.3性能度量

1.均方误差 E = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 \frac{1}{m} \sum_{i=1}^{m}(f(x_i)-y_i)^2 m1i=1m(f(xi)yi)2
2.混淆矩阵:如下图
在这里插入图片描述
3.查准率: P = TP/(TP+FP)
4.查全率: R = TP/(TP+FN)
5.F1度量: F 1 = 2 P R P + R , F_1 = \frac{2 PR}{P+R}, F1=P+R2PR, F β = ( 1 + β 2 ) P R β 2 P + R F_\beta =\frac{(1+\beta^2)PR}{\beta^2P+R} Fβ=β2P+R(1+β2)PR, β > 1 \beta > 1 β>1查全率影响更大
6.宏查全率,微查全率:宏查全率先算好再平均,微查全率先累加再算

B.例题

西瓜书题目:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

其他题目:

对于从数据(0,1),(1,0),(1,2),(2,1)通过最小二乘拟合的不带偏置项的线性模型y=x,其训练误差(均方误差)为____ (保留三位小数)
答案:1.000
在这里插入图片描述
答案:0.364,(4/11)

http://www.xdnf.cn/news/502993.html

相关文章:

  • 【LeetCode】大厂面试算法真题回忆(91)--几何平均值最大子数组
  • vue引用cesium,解决“Not allowed to load local resource”报错
  • 调用DeepSeek系列模型问答时,输出只有</think>标签,而没有<think>标签
  • 无人机视角垃圾检测数据集VOC+YOLO格式771张1类别
  • 使用Maven和Ant上传文件到Linux服务器
  • 交流学习 | 江西同为科技有限公司赴海尔总部考察交流
  • Vue3学习(组合式API——父、子组件间通信详解)
  • 大模型之RAG知识库
  • 实验三:计划任务和时钟同步
  • 经典算法 求C(N, K) % mod,保证mod是质数
  • 打造文本差异对比工具 TextDiffX:从想法到实现的完整过程
  • 嵌入式软件的分层架构
  • GitHub 趋势日报 (2025年05月16日)
  • H3C UIS 超融合管理平台原理解读以及日常运维实操与故障处理
  • Transformer 架构在目标检测中的应用:YOLO 系列模型解析
  • 便捷的批量打印工具推荐
  • PyQt5基本窗口控件(QSlider(滑动条))
  • 【计网】 ARP地址解析协议 [工作过程]
  • hyper-v 虚拟机怎么克隆一台一样的虚拟机?
  • NHANES指标推荐:FMI
  • 【Linux笔记】——Linux线程控制创建、终止与等待|动态库与内核联动
  • 软件测试的常用的面试题【带答案】
  • 【汇总】影视仓接口地址,影视仓最新配置接口【2025.5】
  • 常见图算法解析:TSP问题、最大团/独立集问题、图着色问题、哈密尔顿回路问题、顶点覆盖问题和最长路径问题
  • Ocean: Object-aware Anchor-free Tracking
  • 中级网络工程师知识点4
  • 【文本切割器】RecursiveCharacterTextSplitter参数设置优化指南
  • ORACLE RAC环境REDO日志量突然增加的分析
  • 【以及好久没上号的闲聊】Unity记录8.1-地图-重构与优化
  • SQL Server 常用函数