当前位置：首页 > news >正文

归一化与标准化

news 2025/7/14 9:21:37

数据的归一化和标准化是特征缩放(feature scaling)的方法，是数据预处理的关键步骤。不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据归一化/标准化处理，以解决数据指标之间的可比性。

举个例子，我们判断一个人的幸福程度，判断的依据有年龄，房子数量，收入等。这几个指标中年龄是十位数，房子数量是个位数，而收入一般是千到万的量级。如果不进行归一化，则收入对于结果的影响和其他指标影响的程度会有明显的区别。

同时数据的归一化也有利于提高梯度下降的速度

归一化（Normalization）

归一化一般是将数据映射到指定的范围，用于去除不同维度数据的量纲以及量纲单位。

最常见的归一化方法就是将数据映射到[0, 1]，具体转换函数为：
$x_{new}=\frac{x-x_{min}}{x_{max}-x_{min}}$
其中 $x_{max}$ 为样本数据的最大值， $x_{min}$ 为样本数据的最小值。将所有样本数据代入 $x$ 即可得到转换后的新值

这种归一化方法比较适用在数值比较集中的数据集中，如果有比较极端的离群值出现，则会造成数据转换结果失效。例如数据中有一个值为3千万，其他值都在0-100内，则转换后的数据3千万会被转换为1，其他数据都为0，

同时也可以将数据映射到 [-1, 1] 的区间，具体公式为：
$X_{new} = \frac{2*(X - X_{min})}{X_{max} - X_{min}} - 1$

标准化（Normalization）

归一化和标准化的英文翻译是一致的，但是根据其用途（或公式）的不同去理解（或翻译）
标准化中最常用的是Z-Score 标准化。

Z-Score 标准化的转换函数一般为：
$x_{new}=\frac{x-\mu }{\sigma }$
其中 $\mu$ 是数据的均值， $\sigma$ 为数据的标准差

Z-Score 标准化将数据变换为均值为0，标准差为1的分布。如果原始数据是正态的，这个转化函数其实就是统计中的标准正态转换函数，可以将数据转化为标准正态分布

参考文章：
https://zhuanlan.zhihu.com/p/296252799

在这里插入图片描述

查看全文

http://www.xdnf.cn/news/618031.html

频率分布直方图

halcon初始

深度剖析并发I/O模型select、poll、epoll与IOCP核心机制

计算机组成原理-基本运算部件定点数的运算

【安全攻防与漏洞】Heartbleed漏洞复现与修复

【JS】vue3具名导出与默认导出

[Asp.Net]GridView导出Excel长数字显示成科学计数

Spring Boot 项目多数据源配置【dynamic datasource】

C++进阶--c++11（02）

【算法】: 前缀和算法(利用o(1)的时间复杂度快速求区间和)

全球复合铁路枕木市场深度分析：技术革新与区域增长潜力（2024-2031）

IIS部署微信支付模块问题

欧拉公式的历史脉络、数学证明和现代意义

信息学奥赛及各种程序设计竞赛中常见的名词解释

Android四大组件学习总结

PyQt学习系列07-数据库操作与ORM集成

JavaMail的使用

重读《人件》Peopleware -（12-1）Ⅱ 办公环境 Ⅴ 大脑时间与身体时间（上）

超简单 FishSpeech 本地部署

【游戏设计】游戏玩法与游戏机制

决策树引导：如何选择最适合你的机器学习算法

文章记单词 | 第110篇（六级）

Java 8 Lambda 表达式使用说明与案例

前端测试简介

Python排序函数全面指南：从基础到高级

字符编码详解：ASCII、Latin1、Unicode、UTF-8 与 GBK

365打卡第N1周: one-hot编码案例

【数据反哺运营】用Python构建可落地的商品结构分析方法论-某朴超市

【风控】申请评分卡(A卡)模型

QString 写时拷贝简介

归一化（Normalization）

标准化（Normalization）

相关文章：