当前位置：首页 > ai >正文

8.14 机器学习（1）

ai 2025/8/17 11:05:59

机器学习基础

一、什么是机器学习

定义：让计算机利用大量数据在特定任务上持续改进性能的过程，可以让任务完成的更好。

机器学习的领域很多。

二、机器学习基本术语

数据集、样本、特征（属性）、属性空间、向量表示、训练集（训练模型的数据集合，含标记信息）、测试集（测试模型的数据集合）

三、主要学习任务（以好瓜坏瓜为例子）

监督学习：已知正确答案和参数，达到要求的学习过程。
- 分类：输出的结果位有限，离散型（好瓜/坏瓜）。
- 回归：输出某个范围内任何数值，连续型（房价预测）。
无监督学习：提供数据集合，不提供有信息的学习过程。
- 聚类：把样本按相似度分组。
- 关联分析：尿布 → 葡萄酒推荐。
集成学习
①结合多个弱学习器提升整体性能。

四、模型评估与选择

误差
1. 训练误差（经验误差）：在训练集上的误差。
2. 泛化误差：在新样本上的期望误差。
3. 错误率：错误的样本占样本总数的比例。
4. 残差：实际预测输出与样本真实输出的差异。
拟合状态
1. 欠拟合：模型太简单，训练误差高。
  → 解决：增加特征、提高模型复杂度、减小正则化。
2. 过拟合：模型太复杂，训练误差低但泛化误差高。
  → 解决：增数据、降维、正则化、集成学习。
3. 损失函数：衡量模型预测误差大小的函数。（损失函数越小越好）
评估方法
1. 留出法：70 % 训练 / 30 % 测试，分层采样。
2. k 折交叉验证：常用 10 折，取 k 次平均。
性能指标（二分类）
1. TP, FP, TN, FN
2. 查准率 P = TP / (TP+FP)
3. 查全率 R = TP / (TP+FN)

五、选择模型的原则

奥卡姆剃刀：在可解释数据的前提下选最简单模型。

没有免费午餐（NFL）：脱离具体任务谈算法优劣无意义。

机器学习=数据+算法+评估

用经验提升任务性能，警惕欠拟合与过拟合，通过交叉验证和性能指标选择最适合实际问题的简洁模型。

http://www.xdnf.cn/news/17735.html

相关文章：

在IAR Embedded Workbench for Arm中实现NXP S32K3安全调试

DeepSeek补全IBM MQ 9.4 REST API 执行命令的PPT

通过网页调用身份证阅读器http websocket方法-湖南步联科技美萍MP999A电子————仙盟创梦IDE

Eureka故障处理大汇总

FPS游戏时，你的电脑都在干什么(CS2)

融合服务器助力下的电视信息发布直播点播系统革新

零基础数据结构与算法——第七章：算法实践与工程应用-搜索引擎

容器化与微服务：一场关于“敏捷”与“秩序”的十年战争

pip和dnf只下载不安装离线包

重塑隐私边界，微算法科技(NASDAQ：MLGO)开发基于边缘计算的轻量级区块链身份隐私保护方案

解锁 Docker：一场从入门到源码的趣味解谜之旅

.Net Core控制台程序连接HGDB并部署到Linux

人工智能概念股：最新投资机会深度解析

《书写范式》——代码如诗，诗娟代码(Python)（附精巧“九九表”生成代码）

基于离散余弦变换的激活水印（DCT-AW）

Datawhale AI夏令营第三期多模态RAG方向 Task3

git clone 支持在命令行临时设置proxy

Redis中灵活结合SET和SETEX的方法及多语言工具库实现

iscc2025决赛wp

docker load镜像后名字和标签异常解决

[前端算法]排序算法

2023 年全国硕士研究生招生考试真题笔记

B站韩顺平笔记（Day 17）

【新手入门】Android Studio 项目结构拆解，快速理解文件作用！

边缘节点 DDoS 防护：CDN 节点的流量清洗与就近拦截方案

会议征稿！IOP出版｜第二届人工智能、光电子学与光学技术国际研讨会（AIOT2025）

C# 反射和特性(获取Type对象)