当前位置: 首页 > news >正文

Python Day42 学习(日志Day9复习)

补充:关于“箱线图”的阅读

以下图为例 @浙大疏锦行

箱线图的基本组成

  • 箱体(Box):中间的矩形,表示数据的中间50%(从下四分位数Q1到上四分位数Q3)
  • 中位线(Median):箱体中间的横线,表示数据的中位数(50%分位)。
  • “胡须”(Whiskers):箱体上下延伸的线,通常表示1.5倍四分位距(IQR)以内的数据范围。
  • 离群点(Outliers):超出“胡须”范围的点,用小圆圈表示,代表极端值。

如何读这张图

  • 横轴(x轴)Credit Default,有两个类别(0和1),分别代表“未违约”和“违约”。
  • 纵轴(y轴)Annual Income,表示年收入。

每个类别下都有一个箱线图,分别展示该类别下年收入的分布情况。


具体解读:

  • 箱体高度:箱体越高,说明该类别下年收入的中间50%分布越分散;越矮则越集中。
  • 中位线位置:箱体中间的线,表示该类别下年收入的中位数。可以比较两组的中位数高低。
  • 上下“胡须”长度:反映数据的整体分布范围。
  • 离群点:箱体外的小圆点,表示极高或极低的年收入,是异常值。

结合该图:

  • 未违约(0)和违约(1) 两组都存在较多的离群点,说明都有极高的年收入个案。
  • 箱体位置和中位线:可以比较两组的年收入中位数和分布范围,看是否有显著差异。
  • 箱体宽度无实际意义,只是为了区分类别。

Q. 关于“箱体”和“箱体高度”

  • 箱线图中间的矩形部分叫“箱体”(Box)。
  • 这个箱体的下边界是下四分位数(Q1),上边界是上四分位数(Q3)
  • Q1 是数据中25%位置的数,Q3 是75%位置的数。
  • 所以,箱体表示的是从25%到75%之间的数据,也就是中间50%的数据分布范围

箱体高度

  • 箱线图的“箱体”表示的是该类别下年收入的中间50%(也就是从下四分位数Q1到上四分位数Q3之间的数据)。
  • 箱体高度就是箱体在y轴(年收入)方向的长度,反映了这50%数据的分布范围有多大。

详细解释:

  • 如果箱体很高,说明这50%的人的年收入差异很大,有的人收入高,有的人收入低,数据分布比较分散。
  • 如果箱体很矮,说明这50%的人的年收入都集中在一个较小的区间里,大家的收入水平比较接近,数据分布比较集中。

举例:

  • 比如“Credit Default=0”时箱体高度大于“Credit Default=1”,就说明未违约人群的年收入差异比违约人群大。

总结: 箱体越高,数据越分散;箱体越矮,数据越集中。箱体高度可以帮助你判断该类别下数据的离散程度。

补充:关于“小提琴图”的阅读

以下图为例

小提琴图的组成

  • 外形(轮廓):每个“Credit Default”类别下都有一个对称的“提琴”形状,表示该类别下“Annual Income”年收入的分布密度。外形越宽,说明该收入区间的人数越多。
  • 中间的白色点/线:通常表示中位数和四分位数(有的版本会显示箱线图的元素)。
  • 宽度:反映数据在该区间的密集程度,越宽说明数据越集中,越窄说明数据越稀疏。

 如何读这张图

  • 横轴(x轴)Credit Default,有两个类别(0=未违约,1=违约)。
  • 纵轴(y轴)Annual Income,表示年收入。
  • 每个小提琴:展示该类别下年收入的分布情况。

具体解读:

  • 形状宽窄
    • 某一高度(年收入区间)越宽,说明这个收入区间的人数越多。
    • 某一高度越窄,说明这个收入区间的人数越少。
  • 中间的白色线/点
    • 白色粗线是中位数,箱体表示四分位数范围(和箱线图类似)。
  • 对比两组
    • 可以比较违约和未违约两组的年收入分布是否有明显差异。
    • 例如,两组的分布形状、峰值位置、宽度等是否不同。

结论举例

  • 如果某一组的小提琴在高收入区间特别宽,说明该组高收入人群多。
  • 如果两组小提琴形状差不多,说明两组年收入分布相似。
  • 如果一组的中位数更高,说明该组整体收入更高。

手写笔记复习

http://www.xdnf.cn/news/891127.html

相关文章:

  • AI智能推荐实战之RunnableParallel并行链
  • .Net Framework 4/C# System.IO 命名空间(文件的输入输出)
  • 深度学习之模型压缩三驾马车:基于ResNet18的模型剪枝实战(2)
  • 箭头函数和普通函数的this指向
  • BLE中心与外围设备MTU协商过程详解
  • 炫云:为驱动数字视觉产业升级保驾护航
  • 【设计模式-4.11】行为型——解释器模式
  • centos实现SSH远程登录
  • 分布式一致性原理及一致性协议
  • AI数字人小程序开发,重塑商业服务新模式
  • 6个月Python学习计划 Day 15 - 函数式编程、高阶函数、生成器/迭代器
  • 分析vban的utlis中的helper方法(1)——数组
  • 【技术笔记】AI Agent 项目 SUNA 部署:MSYS2 环境中 Python 版本从 3.12 降级至 3.11 的实操指南
  • place 布局管理器
  • java使用文本相似度检测可以调整阈值
  • Redis 配置与优化
  • LAUNCHXL-F28379D SCI中断配置
  • 什么是数据孤岛?如何实现从数据孤岛到数据共享?
  • java.io.IOException: Broken pipe
  • leetcode 1061. 按字典序排列最小的等效字符串 中等
  • js 比较两个对象的值是否相等
  • 【数据集】MODIS 8日合成1公里地表温度LST产品
  • Ubuntu20.04配置静态ip
  • 摄像头模块未来技术发展方向
  • 行业赋能篇-2-能源行业安全运维升级
  • MLP(多层感知机)
  • 算法复杂度,咕咕咕
  • 晨读笔记 6-5 (主题:打造15分钟就业服务圈)
  • SpringBoot+Mysql实现的停车场收费小程序系统+文档
  • GPU显存的作用和如何选择