当前位置: 首页 > java >正文

机器学习数据预处理回归预测中标准化和归一化

  在机器学习的回归预测任务中,** 标准化(Standardization)和归一化(Normalization)** 是数据预处理的重要步骤,用于消除不同特征量纲和取值范围的影响,提升模型训练效率和预测性能。

一、标准化(Z-Score 标准化)

1.定义和公式:
  通过将特征值转换为符合 ** 标准正态分布(均值为 0,标准差为 1)** 的数值,消除量纲差异。
在这里插入图片描述
2.优缺点:
(1)优点
  保留数据分布特征,适用于需要利用数据分布信息的模型。可通过计算均值和标准差在线性时间内完成,效率高。
(2)缺点
  受异常值影响较大,若数据中存在离群点,可能导致均值和标准差偏移。
3.使用场景
(1)基于距离或梯度的算法:如线性回归、逻辑回归、支持向量机(SVM)、神经网络、K 近邻(KNN)等。这些算法对特征尺度敏感,标准化可确保梯度下降优化过程更快收敛。
(2)存在异常值的数据集:标准差对异常值敏感,但若数据中存在极端值,标准化可能受其影响(需结合数据清洗)。

二、归一化(Min-Max 归一化)

  将特征值缩放到指定范围(通常为0,1或−1,1),仅改变特征的取值区间,不改变数据分布形态。
在这里插入图片描述

2.优缺点
(1)优点
简单直观,可保持数据的原始分布形态(如均匀分布)。结果具有明确的物理意义(如百分比),便于业务解读。
(2)缺点
若数据中存在异常值,Xmin或 Xmax可能偏离正常范围,导致归一化后的数据失真。

3.适用场景
(1)数据分布未知或均匀分布的场景:如文本特征(TF-IDF)、图像像素值(通常归一化到0,1)。
(2)要求特征取值范围固定的模型:如涉及概率输出的模型(如 Softmax 回归),或需要可视化特征相对大小的场景。
(3)无异常值的数据集:归一化对极值敏感,若存在异常值,可能导致非极值样本被压缩到很小的区间内。

三、如何选择标准化或归一化

1.优先选择标准化的情况:
  数据存在异常值或分布未知。使用基于梯度下降或距离计算的算法(如 SVM、神经网络)。需要保留数据分布的统计特性(如均值、方差)。

2.优先选择归一化的情况:
  数据分布均匀,无显著异常值。业务需求要求特征值在特定区间(如概率、百分比)。使用不需要考虑数据分布的模型(如决策树、随机森林,这类模型对特征尺度不敏感)。

http://www.xdnf.cn/news/6683.html

相关文章:

  • React Flow 节点属性详解:类型、样式与自定义技巧
  • 从技术视角解构 Solana Meme 币生态
  • 校园一卡通安全策略研究调研报告
  • 【配置中心】配置中心该用Nacos还是Apollo
  • 【C++】类与对象
  • python 爬虫框架介绍
  • Day11-苍穹外卖(数据统计篇)
  • 机器学习-特征工程
  • LED点阵屏模块
  • uniapp+vue3页面滚动加载数据
  • 交叉熵损失函数,KL散度, Focal loss
  • 经典启发算法【早期/启发式/HC爬山/SA模拟退火/TS禁忌搜/IA免疫 思想流程举例全】
  • 【生成式AI文本生成实战】从GPT原理到企业级应用开发
  • 【基础】Windows开发设置入门6:Scoop开发者完全指南(AI整理)
  • 如何导出一个python项目中的所有依赖包及其版本信息requirements.txt
  • muduo库EventLoop模块详解
  • 【四川省专升本计算机基础】第二章 计算机软硬件基础(1)
  • 超市营业额数据分析
  • 排序算法之基础排序:冒泡,选择,插入排序详解
  • 工具:shell命令提示符自定义之显示GIT当前分支
  • let、var、const的区别
  • 组件导航 (HMRouter)+flutter项目搭建-混合开发+分栏效果
  • ES(Elasticsearch)的应用与代码示例
  • 主流数据库排查与优化速查手册
  • 基于Backtrader库的均线策略实现与回测
  • 物联网僵尸网络防御:从设备认证到流量染色
  • 游戏AI研究所-Stable Diffusion中LoRA(Low-Rank Adaptation)的定义及权重的作用机制
  • 实现视频分片上传 OSS
  • 深入浅出横向联邦学习、纵向联邦学习、联邦迁移学习
  • 25-05-16计算机网络学习笔记Day1