神经网络|(十五)概率论基础知识-协方差标准化和皮尔逊相关系数
【1】引言
前序学习进程中,已经回顾了协方差、协方差与方差之间关系相关的基本概念。
对于两个随机变量XXX和YYY,协方差为Cov(X,Y)Cov(X,Y)Cov(X,Y),有:
Cov(X,Y)=E[(X−E(X))(Y−E(Y))]Cov(X,Y)=E[(X-E(X))(Y-E(Y))]Cov(X,Y)=E[(X−E(X))(Y−E(Y))]
单个变量的方差为Var(X)Var(X)Var(X):
Var(X)=E[(X−E(X))2]=E[X2−2XE(X)+E(X)2]=E(X2)−2E(X)E(E(X))+E(E(X)2)=E(X2)−E(X)2Var(X)=E[(X-E(X))^2]=E[X^2-2XE(X)+E(X)^2]=\\ E(X^2)-2E(X)E(E(X))+E(E(X)^2)=\\ E(X^2)-E(X)^2Var(X)=E[(X−E(X))2]=E[X2−2XE(X)+E(X)2]=E(X2)−2E(X)E(E(X))+E(E(X)2)=E(X2)−E(X)2
从公式推导上看,协方差等于方差是完全可能的:当计算变量自己和自己的协方差时,协方差就是方差。
Cov(X,X)=E[(X−E(X))(X−E(X))]=E(X2)−E(X)2=Var(X)Cov(X,X)=E[(X-E(X))(X-E(X))]=E(X^2)-E(X)^2=Var(X)Cov(X,X)=E[(X−E(X))(X−E(X))]=E(X2)−E(X)2=Var(X)
方差其实是协方差的一个特例,协方差计算所有变量之间的相互线性关系,但方差计算的是变量自己和自己的线性关系。
【2】协方差标准化
谦虚学习进程中,也曾经回顾变量去中心和标准化的基本概念,其实协方差的计算也很有必要进行标准化操作。
一旦变量是一些物理量,不同的量纲带来的协方差计算值完全不同,这种没有界限的取值会影响判断结果,因此对协方差进行个标准化操作就至关重要。
协方差标准化后的参数名称为“皮尔逊相关系数ρX,Y\rho_{X,Y}ρX,Y”:
ρX,Y=Cov(X,Y)Var(X)⋅Var(Y)\rho_{X,Y}=\frac{Cov(X,Y)}{\sqrt{Var(X)}\cdot \sqrt{Var(Y)}}ρX,Y=Var(X)⋅Var(Y)Cov(X,Y)
ρX,Y\rho_{X,Y}ρX,Y的取值范围是[-1,1],除了量纲影响,其绝对值越接近 1,线性相关越强。
很显然,
当ρX,Y>0\rho_{X,Y}>0ρX,Y>0,变量X,YX,YX,Y同步偏离均值,为线性正相关关系;
当ρX,Y=0\rho_{X,Y}=0ρX,Y=0,变量X,YX,YX,Y中至少有一个量停驻在均值处,为线性无关关系;
当ρX,Y<0\rho_{X,Y}<0ρX,Y<0,变量X,YX,YX,Y反向偏离均值,为线性负相关关系。
【3】总结
学习了协方差标准化获得皮尔逊相关系数ρX,Y\rho_{X,Y}ρX,Y的基础概念。