当前位置: 首页 > backend >正文

什么是EDA(Exploratory Data Analysis,探索性数据分析)

EDA(Exploratory Data Analysis,探索性数据分析)是一种在正式建模前,通过统计量可视化方法来理解数据特征、发现模式与异常、并提出假设的过程。

这张图里你会看到:

  • 直方图:展示单变量的分布,并用红色虚线标出平均值,帮助理解集中趋势

  • 散点图:揭示两个变量之间的关系和可能的相关性

  • 方差柱状图:直观比较不同变量的波动大小

  • 均值标注:让你快速定位数据的中心位置

******  整理 by Moshow郑锴@https://zhengkai.blog.csdn.net/

这里再用表格梳理一下“平均值+方差、散点图+直方图”在 EDA 中的作用👇

方法/指标类型主要作用优点常见注意点
平均值 (Mean)描述性统计衡量数据的集中趋势直观易懂,计算简单容易受极端值影响
方差 (Variance)描述性统计衡量数据离散程度能反映波动大小受量纲影响,需要配合标准差使用
散点图 (Scatter Plot)可视化观察两变量之间的关系、趋势或聚类能发现相关性与离群点当数据量太大时可能变得难以辨别
直方图 (Histogram)可视化显示单变量的分布形态清晰展示分布特征和偏态组距选择影响效果

💡 小贴士:

  • 平均值+方差适合做数值型特征的整体概览

  • 散点图更适合找变量之间的关系

  • 直方图能帮助识别分布是否偏态、是否存在多峰

http://www.xdnf.cn/news/18042.html

相关文章:

  • MariaDB 多源复制
  • Windchill 11 Enumerated Type Customization Utility-枚举类型自定义实用程序
  • 嵌入式开发入门—电子元器件~半导体
  • Linux设备模型深度解析
  • 运动场和光流-动手学计算机视觉17
  • Spring 源码学习(十一)—— webmvc 配置
  • 【k8s、docker】Headless Service(无头服务)
  • Tomcat Connector连接器原理
  • 阶段二:7-上网行为安全概述
  • Spring Boot 项目配置 MySQL SSL 加密访问
  • SQL详细语法教程(四)约束和多表查询
  • 智能汽车领域研发,复用云原始开发范式?
  • 开源数据发现平台:Amundsen Search Service 搜索服务
  • SparkSQL性能优化实践指南
  • gRPC网络模型详解
  • 从0开始学习Java+AI知识点总结-17.web基础知识(数据库)
  • ARM汇编代码新手入门
  • 【人工智能99问】残差链接是什么,是如何起作用的?(28/99)
  • C语言相关简单数据结构:双向链表
  • 影刀 RAP 迁移华为云备忘录数据到得到笔记
  • C++编程实战:高效解决算法与数据结构问题
  • Python多线程、锁、多进程、异步编程
  • 自动驾驶中的传感器技术34——Lidar(9)
  • Python训练营打卡Day35-复习日
  • 2025年5月架构设计师综合知识真题回顾,附参考答案、解析及所涉知识点(五)
  • Pandas 和 NumPy的区别和联系
  • 安卓开发中遇到Medium Phone API 36.0 is already running as process XXX.
  • RK3568平台开发系列讲解:PCIE trainning失败怎么办
  • 计算机网络 OSI 七层模型和 TCP 五层模型
  • day43_2025-08-17