机器学习(一)
一、机器学习的定义与案例
- 引入案例:以 2016 年 3 月阿尔法围棋(AlphaGo)在韩国首尔以 4:1 战胜韩国围棋九段棋手李世石为例,直观展示机器学习的实际应用。
- 核心定义:
机器学习是处理特定任务的过程,以大量经验为基础,通过明确的评判标准,分析经验数据以持续提升任务完成效果。- 逻辑流程:通过 “经验→归纳规律→预测新问题”,或 “历史数据→训练模型→预测未知数据” 实现。
二、机器学习的应用领域
涵盖模式识别、计算机视觉、数据挖掘、语音识别、自然语言处理(如 Google Translate)等,体现了机器学习在多个技术领域的广泛应用。
三、机器学习的基本术语
- 基础概念:
数据集:数据记录的集合(如多个西瓜的描述记录)。
样本:数据集中的每条记录,是对事件或对象的描述(如某一个西瓜的各项特征)。
特征(属性):反映对象性质的事项(如西瓜的 “色泽”“根蒂”“敲声” 等)。
- 属性空间与向量表示:
属性空间:由所有属性张成的空间(又称样本空间)。
向量表示:若数据集含 m 个样本,每个样本由 d 个属性描述,则样本可表示为 d 维向量(如 xi=(xi1,xi2,...,xid)),d 为样本的 “维数”。
- 训练集与测试集:
训练集:含标记信息(如 “好瓜 = 是 / 否”),用于训练模型的数据集(例:14 条含 “好瓜” 标记的西瓜数据)。
测试集:不含标记信息,用于测试模型效果的数据集(例:3 条 “好瓜” 标记为 “?” 的西瓜数据)。
四、机器学习的学习类型
- 监督学习:
特点:数据集含 “正确答案”(标记信息),通过已知标记调整模型参数。
分类:输出为离散值(如判断 “好瓜 / 坏瓜”),例:根据西瓜特征预测 “好瓜 =?”。
回归:输出为连续值(如预测房价),例:根据房屋面积、区域等特征预测价格。
- 无监督学习:
特点:仅提供数据集,无标记信息,模型自主发现数据规律。
典型应用:聚类(如将样本分为 4 类)、关联推荐(如 “向购买尿布的人推荐葡萄酒”,基于交易数据中的商品关联规律)。
- 集成学习:通过构建并结合多个学习器完成任务,提升学习效果。
五、模型评估与选择
- 评估指标:
错误率:分类错误的样本数占总样本数的比例;精度 = 1 - 错误率。
残差:模型预测输出与真实输出的差异。
训练误差(经验误差):模型在训练集上的误差;泛化误差:模型在新样本上的误差。
损失函数:衡量预测偏差的函数,损失函数越小,模型性能越好(如通过拟合直线预测房价的函数 f (x)=W₀+W₁x)。
- 模型拟合问题:
欠拟合:模型未充分捕捉数据特征(如 “认为绿色的都是树叶”),处理方式包括添加新特征、增加模型复杂度、减小正则化系数。
过拟合:模型过度学习训练数据(含噪声),泛化能力差(如 “认为树叶必须有锯齿”),处理方式包括增加训练数据、降维、正则化、集成学习。
- 模型选择原则:
奥卡姆剃刀原理:优先选择能解释数据且简单的模型(“如无必要,勿增实体”)。
没有免费的午餐(NFL)定理:不存在对所有问题都有效的算法,需结合具体任务判断算法优劣。
- 评估方法:
留出法:将数据集划分为训练集(70%)和测试集(30%),需保持数据分布一致(如分层采样),并多次随机划分以减少误差。
交叉验证法:将数据集划分为 k 个互斥子集,每次用 k-1 个子集训练、1 个测试,重复 k 次取均值(如 10 折交叉验证)。
- 分类评估细节:
混淆矩阵术语:TP(真正例)、FP(假正例)、TN(真反例)、FN(假反例)。
查准率(P=TP/(TP+FP))与查全率(R=TP/(TP+FN)):P 反映 “预测为正例的样本中真实正例的比例”,R 反映 “真实正例中被正确预测的比例”,二者通常存在权衡。
P-R 图:直观展示查准率与查全率的关系,若 A 的 P-R 曲线完全包住 B,则 A 性能优于 B;交叉曲线需结合具体场景判断。
总结
该 PPT 从定义、案例入手,逐步介绍机器学习的核心术语、学习类型、模型评估与选择方法,通过大量表格、图示和实例(如西瓜数据集)帮助理解,为机器学习入门奠定基础。