Python Day42 学习(日志Day9复习)
补充:关于“箱线图”的阅读
以下图为例 @浙大疏锦行
箱线图的基本组成
- 箱体(Box):中间的矩形,表示数据的中间50%(从下四分位数Q1到上四分位数Q3)。
- 中位线(Median):箱体中间的横线,表示数据的中位数(50%分位)。
- “胡须”(Whiskers):箱体上下延伸的线,通常表示1.5倍四分位距(IQR)以内的数据范围。
- 离群点(Outliers):超出“胡须”范围的点,用小圆圈表示,代表极端值。
如何读这张图
- 横轴(x轴):
Credit Default
,有两个类别(0和1),分别代表“未违约”和“违约”。 - 纵轴(y轴):
Annual Income
,表示年收入。
每个类别下都有一个箱线图,分别展示该类别下年收入的分布情况。
具体解读:
- 箱体高度:箱体越高,说明该类别下年收入的中间50%分布越分散;越矮则越集中。
- 中位线位置:箱体中间的线,表示该类别下年收入的中位数。可以比较两组的中位数高低。
- 上下“胡须”长度:反映数据的整体分布范围。
- 离群点:箱体外的小圆点,表示极高或极低的年收入,是异常值。
结合该图:
- 未违约(0)和违约(1) 两组都存在较多的离群点,说明都有极高的年收入个案。
- 箱体位置和中位线:可以比较两组的年收入中位数和分布范围,看是否有显著差异。
- 箱体宽度无实际意义,只是为了区分类别。
Q. 关于“箱体”和“箱体高度”
- 箱线图中间的矩形部分叫“箱体”(Box)。
- 这个箱体的下边界是下四分位数(Q1),上边界是上四分位数(Q3)。
- Q1 是数据中25%位置的数,Q3 是75%位置的数。
- 所以,箱体表示的是从25%到75%之间的数据,也就是中间50%的数据分布范围。
箱体高度
- 箱线图的“箱体”表示的是该类别下年收入的中间50%(也就是从下四分位数Q1到上四分位数Q3之间的数据)。
- 箱体高度就是箱体在y轴(年收入)方向的长度,反映了这50%数据的分布范围有多大。
详细解释:
- 如果箱体很高,说明这50%的人的年收入差异很大,有的人收入高,有的人收入低,数据分布比较分散。
- 如果箱体很矮,说明这50%的人的年收入都集中在一个较小的区间里,大家的收入水平比较接近,数据分布比较集中。
举例:
- 比如“Credit Default=0”时箱体高度大于“Credit Default=1”,就说明未违约人群的年收入差异比违约人群大。
总结: 箱体越高,数据越分散;箱体越矮,数据越集中。箱体高度可以帮助你判断该类别下数据的离散程度。
补充:关于“小提琴图”的阅读
以下图为例
小提琴图的组成
- 外形(轮廓):每个“Credit Default”类别下都有一个对称的“提琴”形状,表示该类别下“Annual Income”年收入的分布密度。外形越宽,说明该收入区间的人数越多。
- 中间的白色点/线:通常表示中位数和四分位数(有的版本会显示箱线图的元素)。
- 宽度:反映数据在该区间的密集程度,越宽说明数据越集中,越窄说明数据越稀疏。
如何读这张图
- 横轴(x轴):
Credit Default
,有两个类别(0=未违约,1=违约)。 - 纵轴(y轴):
Annual Income
,表示年收入。 - 每个小提琴:展示该类别下年收入的分布情况。
具体解读:
- 形状宽窄:
- 某一高度(年收入区间)越宽,说明这个收入区间的人数越多。
- 某一高度越窄,说明这个收入区间的人数越少。
- 中间的白色线/点:
- 白色粗线是中位数,箱体表示四分位数范围(和箱线图类似)。
- 对比两组:
- 可以比较违约和未违约两组的年收入分布是否有明显差异。
- 例如,两组的分布形状、峰值位置、宽度等是否不同。
结论举例
- 如果某一组的小提琴在高收入区间特别宽,说明该组高收入人群多。
- 如果两组小提琴形状差不多,说明两组年收入分布相似。
- 如果一组的中位数更高,说明该组整体收入更高。