频率分布直方图
频率分布直方图其实是对一个变量的分布密度(分布)函数进行近似估计的一个手段。
考察概率密度函数与直方图的x、y轴可以得知,密度(分布)函数图像的x轴代表的是随机变量的取值,而对于离散随机变量而言,y轴代表的是对应x取值出现的概率;对于连续随机变量而言,y轴代表的是对应x取值针对其他取值的相对可能性。
直方图x轴代表的是样本的取值,而y轴则代表了x在区间取值的频率,两者之间的关系就可以体现出频率分布的状况。
1. histogram
np.histogram
可以用来计算一位数组的直方图数据。
可以用可选参数k
来定义直方图的箱体数。如果k
省略不写,则默认k=10
。
histogram
返回两个值,第一个值是k
维的向量,包含了每个箱体中的样本数量;第二个值是k+1
个标识箱体的端点值。
如果我们直接调用matplotlib来画图,则可以得出如下图所示的可视化图像。
上述二维数组当中,第一维数组是在描述histogram的纵轴,即每个bin对应的数据个数,而第二维数组是在描述横轴,代表随机变量的取值。
2. histogram2d
histogram2d(x,y)
可用于计算2维的直方图数据。可以用可选参数bins
来定义直方图的箱体数。bins
既可以是一个整数,也可以是一个包含两个元素的列表,分别表示各维度的箱体数。
如果我们直接调用matplotlib来画图,则可以得出如下图所示的可视化图像。
如何解读画出来的图片?
首先我们看一下生成的histogram三维数组,数组的第一维其实是一个矩阵,代表了立体图对应于x、y坐标的第三维坐标z值的大小,对应到图像上面便是颜色的深浅代表了该处z值的大小,也就代表了x、y在该点附近的分布密集程度。
我们可以将数据量扩大来看一下画出来的图像可能是什么样的。