当前位置：首页 > news >正文

监督学习（Supervised Learning）与无监督学习（Unsupervised Learning）

news 2025/8/4 18:21:49

监督学习与无监督学习是机器学习的两大核心范式，主要区别在于数据是否包含明确的“标签”（目标输出）。

1. 监督学习（Supervised Learning）

定义：

数据形式：输入数据（特征） + 标签（已知的正确答案）。
目标：学习从输入到输出的映射关系，实现对新数据的预测。
核心思想：模型通过“正确答案”的引导调整参数，最小化预测误差。

典型任务：

分类（Classification）：预测离散类别标签。示例：垃圾邮件识别（输入：邮件文本，输出：“垃圾”或“正常”）。
回归（Regression）：预测连续数值。示例：房价预测（输入：房屋面积、位置等，输出：房价数值）。

常用算法：

线性回归（Linear Regression）
支持向量机（SVM）
决策树（Decision Trees）
神经网络（Neural Networks）

评估指标：

分类：准确率（Accuracy）、F1分数、ROC-AUC。
回归：均方误差（MSE）、平均绝对误差（MAE）。

优点：

可解释性强（如线性模型）。
预测结果明确，适用于需要精准输出的场景。

缺点：

依赖大量标注数据（标注成本高）。
无法发现数据中隐藏的结构（仅依赖标签）。

2. 无监督学习（Unsupervised Learning）

定义：

数据形式：仅输入数据（无标签）。
目标：发现数据中的潜在结构、模式或分布。
核心思想：通过数据本身的统计特性进行学习，无需外部指导。

典型任务：

聚类（Clustering）：将数据分组到相似的集合。示例：客户分群（输入：购买行为数据，输出：客户群体类别）。
降维（Dimensionality Reduction）：压缩数据维度，保留主要特征。示例：PCA（主成分分析）用于可视化高维数据。
生成（Generation）：学习数据分布并生成新样本。示例：GAN生成逼真图像。

常用算法：

K均值聚类（K-Means）
主成分分析（PCA）
自编码器（Autoencoders）
高斯混合模型（GMM）

评估指标：

聚类：轮廓系数（Silhouette Score）、Calinski-Harabasz指数。
降维：重构误差（如自编码器的重建损失）。

优点：

无需标注数据，节省成本。
能发现数据中隐藏的模式，适用于探索性分析。

缺点：

结果难以量化评估（无标签作为基准）。
模型可能学习到无关或错误的模式（需领域知识验证）。

3. 核心对比

维度	监督学习	无监督学习
数据标签	必须有标签	无标签
任务目标	预测已知的输出（如分类、回归）	发现隐藏结构（如聚类、降维）
算法依赖	依赖标签的误差信号	依赖数据本身的统计特性
应用场景	图像分类、语音识别、预测模型	市场细分、异常检测、数据预处理
评估难度	容易（有明确标签作为基准）	困难（需人工或间接指标验证）
典型算法	SVM、随机森林、神经网络	K-Means、PCA、GAN

4. 直观示例

监督学习：教孩子认动物卡片（每张卡片标注名称），孩子学会后能识别新卡片。
无监督学习：给孩子一堆未标注的动物图片，孩子自己将相似的动物分组。

5. 如何选择

选监督学习：当需要明确的预测结果（如疾病诊断），且有足够标注数据。
选无监督学习：当数据无标签，或需要探索数据潜在结构（如客户行为分析）。

6. 扩展：半监督学习

定义：结合少量标注数据和大量无标注数据（如标注数据不足时）。
应用：医学影像分析（标注成本高，但部分标注可提升模型性能）。

总结

监督学习和无监督学习是机器学习的基石，前者依赖标签指导模型预测，后者通过数据内在结构自主挖掘模式。实际应用中，二者常结合使用（如先用无监督学习预处理数据，再用监督学习训练模型）。

http://www.xdnf.cn/news/100711.html

相关文章：

批量将多个 Excel 表格中的某张图片替换为新的图片

基础算法合集-并查集

《解锁vLLM：大语言模型推理的加速密码》

赞奇AIknow知识图谱能力/案例介绍

在KEIL里C51和MDK兼容以及添加ARM compiler5 version编译器

RK3568平台开发系列讲解（调试篇）debugfs API接口及案例

亚马逊选品：手工与插件的差异剖析！

飞帆控件：在编辑模式下额外加载的库

网页设计规范：从布局到交互的全方位指南

axios 在请求拦截器中设置Content-Type无效问题

Generative AI for Krita - Krita 生成式 AI 插件

机器学习学习笔记

迭代器模式：统一数据遍历方式的设计模式

基于自适应汉克尔子空间的快速且超高分辨率的弥散磁共振成像（MRI）图像重建|文献速递-深度学习医疗AI最新文献

第七篇：linux之基本权限、进程管理、系统服务

FPGA开发流程初识

大数据学习（112）-Analytic函数集

（2025最新版）CUDA安装及环境配置

文件上传过程中出现EOFException的解决方案

建筑安全员 A 证与 C 证：差异决定职业方向

【3.1】pod详解——Pod的结构

Science Robotics 新型层级化架构实现250个机器人智能组队，“单点故障”系统仍可稳定运行

汽车租赁管理系统分析方案

Redis核心技术知识点全集

C#语言实现PDF转Excel

【论文阅读】Dual-branch Cross-Patch Attention Learning for Group Affect Recognition

Tkinter：Python 3官方轻量级GUI库

常见的五种权限管理模型

用交换机连接两台电脑，电脑A读取/写电脑B的数据