当前位置：首页 > ds >正文

学习笔记(34):matplotlib绘制图表-房价数据分析与可视化

ds 2025/7/12 6:48:25

学习笔记(34):matplotlib绘制图表-房价数据分析与可视化

分析房价分布情况，通过直方图、核密度估计和正态分布拟合来直观展示房价的分布特征，并进行统计检验。

一、房价数据分析与可视化，代码分析

1.1、导入必要的库

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from scipy import stats
import os

导入数据处理 (pandas)、绘图 (matplotlib, seaborn)库
导入数学计算 (numpy, scipy) 和文件操作 (os) 库

1.2、设置中文字体和负号显示

# 设置 Windows 系统的中文字体
plt.rcParams["font.family"] = ["SimHei", "Microsoft YaHei"]
plt.rcParams['axes.unicode_minus'] = False # 解决负号显示问题

设置了适用于 Windows 系统的中文字体，确保图表中的中文能正常显示
解决了负号显示为方块的问题

1.3、数据加载函数 load_data()

def load_data(file_path):"""加载房价数据"""try:# 尝试读取CSV文件data = pd.read_csv(file_path)print(f"数据加载成功，共{data.shape[0]}条记录，{data.shape[1]}个特征")print(f"数据特征: {', '.join(data.columns.tolist())}")return dataexcept FileNotFoundError:print(f"错误: 文件 '{file_path}' 不存在")# 创建示例数据用于演示print("创建示例数据用于演示...")np.random.seed(42)size = 500data = pd.DataFrame({'price': np.random.normal(15000, 3000, size),  # 房价，单位：万元'area': np.random.normal(100, 20, size),  # 面积，单位：平方米'age': np.random.randint(1, 30, size),  # 房龄，单位：年})# 确保房价与面积正相关，与房龄负相关data['price'] = data['price'] + 50 * data['area'] - 100 * data['age']data['price'] = data['price'].clip(lower=5000)  # 设置价格下限return data

尝试从指定路径加载 CSV 文件
如果文件不存在，会生成模拟数据：
- 使用正态分布生成房价、面积数据
- 使用均匀分布生成房龄数据
- 通过公式price = base_price + 50*area - 100*age确保房价与面积正相关，与房龄负相关
- 设置房价下限为 5000 万元

1.4、房价分布可视化函数 `plot_price_distribution()`

def plot_price_distribution(data, price_col='price'):"""绘制房价分布直方图"""plt.figure(figsize=(10, 6))# 绘制直方图和核密度估计sns.histplot(data[price_col], kde=True, bins=30, color='skyblue')# 添加均值和中位数线mean_val = data[price_col].mean()median_val = data[price_col].median()plt.axvline(mean_val, color='red', linestyle='dashed', linewidth=2, label=f'均值: {mean_val:.2f}')plt.axvline(median_val, color='green', linestyle='dashed', linewidth=2, label=f'中位数: {median_val:.2f}')# 添加正态分布拟合曲线mu, sigma = stats.norm.fit(data[price_col])x = np.linspace(data[price_col].min(), data[price_col].max(), 100)plt.plot(x, stats.norm.pdf(x, mu, sigma) * len(data) * (x.max() - x.min()) / 100,'r--', linewidth=2, label=f'正态分布拟合: μ={mu:.2f}, σ={sigma:.2f}')plt.title('房价分布直方图')plt.xlabel('房价 (万元)')plt.ylabel('频数')plt.legend()plt.grid(axis='y', alpha=0.5)plt.tight_layout()# 保存图像if not os.path.exists('plots'):os.makedirs('plots')plt.savefig('plots/price_distribution.png', dpi=300)plt.show()# 打印统计信息print("\n房价统计信息:")print(data[price_col].describe())# 检验正态性stat, p = stats.normaltest(data[price_col])print(f"\n正态性检验 (p值): {p:.4f}")if p < 0.05:print("房价分布显著偏离正态分布")else:print("房价分布近似正态分布")

创建 10x6 英寸的图表
使用 seaborn 绘制直方图和核密度估计曲线
添加均值 (红色虚线) 和中位数 (绿色虚线) 参考线
拟合正态分布曲线并绘制 (红色虚线)
设置图表标题、轴标签，添加图例和网格线
将图表保存到 plots 文件夹，并显示图表
打印房价的描述性统计信息 (计数、均值、标准差等)
使用stats.normaltest进行正态性检验并输出结果

1.5、主函数 main()

def main():"""主函数：执行数据加载和价格分布分析"""file_path = '../../data/house_prices.csv'  # 替换为实际文件路径# 1. 加载数据data = load_data(file_path)# 2. 绘制房价分布直方图plot_price_distribution(data)print("\n数据分析完成！图表已保存到 'plots' 文件夹")

设置数据文件路径
调用load_data()加载数据
调用plot_price_distribution()分析并可视化房价分布
打印分析完成信息

1.6、程序入口

if __name__ == "__main__":
main()

确保程序作为脚本直接运行时才执行main()函数
如果作为模块导入，则不会执行

代码优化建议

添加更多错误处理，如处理空数据的情况
可以将图表保存路径作为参数传入
正态分布曲线的高度计算可以更精确
可以添加更多的房价分析维度，如不同房龄、面积段的价格分布

二、代码和执行结果

2.1、代码

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from scipy import stats
import os# 设置 Windows 系统的中文字体
plt.rcParams["font.family"] = ["SimHei", "Microsoft YaHei"]
plt.rcParams['axes.unicode_minus'] = False  # 解决负号显示问题def load_data(file_path):"""加载房价数据"""try:# 尝试读取CSV文件data = pd.read_csv(file_path)print(f"数据加载成功，共{data.shape[0]}条记录，{data.shape[1]}个特征")print(f"数据特征: {', '.join(data.columns.tolist())}")return dataexcept FileNotFoundError:print(f"错误: 文件 '{file_path}' 不存在")# 创建示例数据用于演示print("创建示例数据用于演示...")np.random.seed(42)size = 500data = pd.DataFrame({'price': np.random.normal(15000, 3000, size),  # 房价，单位：万元'area': np.random.normal(100, 20, size),  # 面积，单位：平方米'age': np.random.randint(1, 30, size),  # 房龄，单位：年})# 确保房价与面积正相关，与房龄负相关data['price'] = data['price'] + 50 * data['area'] - 100 * data['age']data['price'] = data['price'].clip(lower=5000)  # 设置价格下限return datadef plot_price_distribution(data, price_col='price'):"""绘制房价分布直方图"""plt.figure(figsize=(10, 6))# 绘制直方图和核密度估计sns.histplot(data[price_col], kde=True, bins=30, color='skyblue')# 添加均值和中位数线mean_val = data[price_col].mean()median_val = data[price_col].median()plt.axvline(mean_val, color='red', linestyle='dashed', linewidth=2, label=f'均值: {mean_val:.2f}')plt.axvline(median_val, color='green', linestyle='dashed', linewidth=2, label=f'中位数: {median_val:.2f}')# 添加正态分布拟合曲线mu, sigma = stats.norm.fit(data[price_col])x = np.linspace(data[price_col].min(), data[price_col].max(), 100)plt.plot(x, stats.norm.pdf(x, mu, sigma) * len(data) * (x.max() - x.min()) / 100,'r--', linewidth=2, label=f'正态分布拟合: μ={mu:.2f}, σ={sigma:.2f}')plt.title('房价分布直方图')plt.xlabel('房价 (万元)')plt.ylabel('频数')plt.legend()plt.grid(axis='y', alpha=0.5)plt.tight_layout()# 保存图像if not os.path.exists('plots'):os.makedirs('plots')plt.savefig('plots/price_distribution.png', dpi=300)plt.show()# 打印统计信息print("\n房价统计信息:")print(data[price_col].describe())# 检验正态性stat, p = stats.normaltest(data[price_col])print(f"\n正态性检验 (p值): {p:.4f}")if p < 0.05:print("房价分布显著偏离正态分布")else:print("房价分布近似正态分布")def main():"""主函数：执行数据加载和价格分布分析"""file_path = '../../data/house_prices.csv'  # 替换为实际文件路径# 1. 加载数据data = load_data(file_path)# 2. 绘制房价分布直方图plot_price_distribution(data)print("\n数据分析完成！图表已保存到 'plots' 文件夹")if __name__ == "__main__":main()

2.2、执行结果

数据加载成功，共21条记录，4个特征
数据特征: area, price, age, bedrooms
房价统计信息:
count 21.000000
mean 15619.047619
std 2854.403449
min 12000.000000
25% 13000.000000
50% 16000.000000
75% 18000.000000
max 20000.000000
Name: price, dtype: float64
正态性检验 (p值): 0.0725
房价分布近似正态分布
数据分析完成！图表已保存到 'plots' 文件夹

三、1.4中的部分详解

1.4.1、正态分布拟合曲线绘制代码详解

mu, sigma = stats.norm.fit(data[price_col])
x = np.linspace(data[price_col].min(), data[price_col].max(), 100)
plt.plot(x, stats.norm.pdf(x, mu, sigma) * len(data) * (x.max() - x.min()) / 100,
'r--', linewidth=2, label=f'正态分布拟合: μ={mu:.2f}, σ={sigma:.2f}')