当前位置: 首页 > ai >正文

Python 数据建模与分析项目实战预备 Day 4 - EDA(探索性数据分析)与可视化

✅ 今日目标

  • 使用 Pandas + Matplotlib/Seaborn 对简历数据进行探索性分析
  • 分析不同字段与目标变量的相关性
  • 通过可视化呈现简历筛选的潜在规律

🧾 一、建议分析内容

🔹 分类字段分析

字段图表建议说明
degree柱状图(分组通过率)分析学历与通过率关系
university_type条形图是否为双一流影响筛选?

🔹 数值字段分析

字段图表建议说明
work_years箱型图 / 小提琴图工龄 vs 通过率分布
project_count, desc_len散点图项目数量/质量是否有利筛选

🔹 多变量交叉分析

  • 使用 hue="pass_screening" 对比不同特征组合
  • 相关系数热力图 sns.heatmap(df.corr())

📦 所需工具

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

✏️ 今日练习任务

编写 eda_visualize.py 实现以下内容:

  • 读取原始数据 resume_data.csv

  • 绘制多个字段与通过率之间的图表

  • 可输出为本地图片或显示图形窗口

    # eda_visualize.py - 简历数据可视化分析脚本import pandas as pd
    import seaborn as sns
    import matplotlib.pyplot as pltplt.rcParams['font.family'] = 'Arial Unicode MS'  # Mac 用户可用
    plt.rcParams['axes.unicode_minus'] = False# 设置风格
    sns.set(style="whitegrid")# 读取数据
    df = pd.read_csv("./data/resume_data.csv")# 设置字体显示中文(可选)
    plt.rcParams['font.family'] = ['Arial Unicode MS']  # macOS
    # plt.rcParams['font.sans-serif'] = ['SimHei']  # Windows
    # plt.rcParams['axes.unicode_minus'] = False# 学历 vs 通过率
    plt.figure(figsize=(6, 4))
    sns.barplot(x="degree", y="pass_screening", data=df)
    plt.title("学历 vs 简历通过率")
    plt.savefig("plot_degree_pass.png")# 学校类型 vs 通过率
    plt.figure(figsize=(6, 4))
    sns.barplot(x="university_type", y="pass_screening", data=df)
    plt.title("学校类型 vs 简历通过率")
    plt.savefig("plot_univ_pass.png")# 工龄分布对通过率影响
    plt.figure(figsize=(6, 4))
    sns.boxplot(x="pass_screening", y="work_years", data=df)
    plt.title("工龄 vs 简历通过情况")
    plt.savefig("plot_work_years_pass.png")# 项目描述长度 vs 筛选通过(散点图)
    plt.figure(figsize=(6, 4))
    sns.scatterplot(x="project_desc_len", y="project_count", hue="pass_screening", data=df)
    plt.title("项目描述长度 & 数量 vs 筛选")
    plt.savefig("plot_project_scatter.png")# 相关系数热力图
    plt.figure(figsize=(10, 6))
    corr = df.corr(numeric_only=True)
    sns.heatmap(corr, annot=True, cmap="YlGnBu")
    plt.title("字段相关系数热力图")
    plt.savefig("plot_corr_heatmap.png")print("✅ 图表已生成并保存为 PNG 文件。")
    

    字段相关系数热力图:
    在这里插入图片描述

http://www.xdnf.cn/news/15252.html

相关文章:

  • 音视频学习(三十七):pts和dts
  • 香港理工大学实验室定时预约
  • php生成二维码
  • Java网络编程
  • ref 和 reactive
  • 详解Linux下多进程与多线程通信(一)
  • Kafka——Kafka 线上集群部署方案怎么做?
  • 解决 Python 跨目录导入模块问题
  • git实际工作流程
  • Java 大视界 -- Java 大数据在智能教育学习资源智能分类与标签优化中的应用(346)
  • [2025CVPR]DenoiseCP-Net:恶劣天气下基于LiDAR的高效集体感知模型
  • 若依框架集成阿里云OSS实现文件上传优化
  • 基于requests_html的爬虫实战
  • 「小程序开发」项目结构和页面组成
  • java: DDD using oracle 21c
  • 多级@JsonTypeInfo和@JsonSubTypes注解使用详解及场景分析
  • opencv python 基本操作
  • Python自动化:每日销售数据可视化
  • 日志系统 on Linux C/C++
  • STEP 7-Micro/WIN SMART 编程软件:从入门到精通的使用指南
  • Datawhale AI夏令营——基于带货视频评论的用户洞察挑战赛
  • 关于 java:11. 项目结构、Maven、Gradle 构建系统
  • Cesium初探-CallbackProperty
  • 【算法分析与设计】研究生第二次算法作业:基于分治策略的有序数组中位数查找与逆序对计数 latex源码和pdf
  • 五、深度学习——CNN
  • 卫星通信终端天线的5种对星模式之二:DVB跟踪
  • FastAdmin项目开发三
  • Anthropic:从OpenAI分支到AI领域的领军者
  • ubuntu18.04 升级Ubuntu 20.04
  • Transformer基础