当前位置: 首页 > backend >正文

绘制板块层级图

目录

【实验目的】

【实验原理】

【实验环境】

【实验步骤】

【实验总结】

【实验目的】

  1. 掌握数据文件读取
  2. 掌握数据处理的方法
  3. 实现板块层级图的绘制

【实验原理】

       板块层级图(treemap)是一种基于面积的可视化方式,通过每一个板块(通常为矩形)的尺寸大小进行度量。外部矩形代表父类别,而内部矩形代表子类别。我们也可以通过板块层级图简单的呈现比例关系,不过它更擅于呈现树状结构的数据。
        读取绘图所用的数据,并对数据进行处理将数据处理成我们可以使用的形式,绘制板块层级图,设置标签和标题。

【实验环境】

OS:win10

python:v3.8

【实验步骤】

一、安装pandas、matplotlib、seaborn、squarify

输入命令 pip install pandas/matplotlib/seaborn/squarify

二、读取数据

在这里我们使用pandas库中的read_csv函数来读取这3个数据文件。

import pandas as pdproducts_df=pd.read_csv("D:\\数据可视化\\第四章实验\\products.csv")
aiseles_df=pd.read_csv("D:\\数据可视化\\第四章实验\\aisles.csv")
departments_df=pd.read_csv("D:\\数据可视化\\第四章实验\\departments.csv")
# 打印数据集的前几行
print(departments_df.head().to_csv(sep='\t', na_rep='nan'))

数据读取的结果为:

三、数据处理

我们需要根据源表对目标表进行匹配查询,使用merge函数进行操作。

import pandas as pdproducts_df = pd.read_csv("D:\\数据可视化\\第四章实验\\products.csv")
aisles_df = pd.read_csv("D:\\数据可视化\\第四章实验\\aisles.csv")
departments_df = pd.read_csv("D:\\数据可视化\\第四章实验\\departments.csv")
# 打印数据集的前几行
# print(departments_df.head().to_csv(sep='\t', na_rep='nan'))order_products_prior_df = pd.merge(products_df, aisles_df, on='aisle_id', how='left')
order_products_prior_df = pd.merge(order_products_prior_df, departments_df, on='department_id', how='left')
order_products_prior_df.head()
temp = order_products_prior_df[['product_name', 'aisle', 'department']]
temp = pd.concat([order_products_prior_df.groupby('department')['product_name'].nunique().rename('products_department'),order_products_prior_df.groupby('department')['aisle'].nunique().rename('aisle_department')
], axis=1).reset_index()
temp = temp.set_index('department')
temp2 = temp.sort_values(by="aisle_department", ascending=False)# 添加打印语句输出匹配结果
print(temp2)

进行匹配操作后的数据:

四、绘制板块层级图

import matplotlib.colors
import squarifycmap = matplotlib.cm.viridis
mini, maxi = temp2.products_department.min(), temp2.products_department.max()
norm = matplotlib.colors.Normalize(vmin=mini, vmax=maxi)
colors = [cmap(norm(value)) for value in temp2.products_department]
colors[1] = "#FBFCFE"
labels = ["%s\n%d aisle num\n%d products num" % label for label inzip(temp2.index, temp2.aisle_department, temp2.products_department)]
fig = plt.figure(figsize=(12, 10))
ax = fig.add_subplot(111, aspect="equal")
ax = squarify.plot(temp2.aisle_department, color=colors, label=labels, ax=ax, alpha=.7)
plt.show()

绘制结果:

# 设置x、y轴的属性:
ax.set_xticks([])
ax.set_yticks([])
#添加图表标题:
fig.suptitle("How are aisles organized within departments",fontsize=20)
#添加数据标签
img=plt.imshow([temp2.products_department],cmap=cmap)
img.set_visible(False)
fig.colorbar(img,orientation="vertical",shrink=.96)
fig.text(.76,.9,"numbers of products",fontsize=14)
plt.show()

板块层级图效果如下:

参考如下绘图代码,实现该板块层级图的绘制,并尽可能多地总结代码中所蕴含地中手电。

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib
import squarify# 设置链式赋值警告为不显示
pd.options.mode.chained_assignment = None# 读取相关数据文件
products_df = pd.read_csv('D:\\数据可视化\\第四章实验\\products.csv')
aisles_df = pd.read_csv('D:\\数据可视化\\第四章实验\\aisles.csv')
departments_df = pd.read_csv('D:\\数据可视化\\第四章实验\\departments.csv')# 合并数据
order_products_prior_df = pd.merge(products_df, aisles_df, on='aisle_id', how='left')
order_products_prior_df = pd.merge(order_products_prior_df, departments_df, on='department_id', how='left')
order_products_prior_df.head()# 提取相关列并进行聚合操作
temp = order_products_prior_df[['product_name', 'aisle', 'department']]
temp = pd.concat([order_products_prior_df.groupby('department')['product_name'].nunique().rename('products_department'),order_products_prior_df.groupby('department')['aisle'].nunique().rename('aisle_department')
], axis=1).reset_index()
temp = temp.set_index('department')
temp2 = temp.sort_values(by="aisle_department", ascending=False)# 打印中间结果
print(temp)
print(temp2)# 设置一些绘图相关的初始变量(这里x、y、width、height未在后续代码中实际使用,可根据需求调整或删除)
x = 0
y = 0
width = 100
height = 100# 设置颜色映射相关
cmap = matplotlib.cm.viridis
mini, maxi = temp2.products_department.min(), temp2.products_department.max()
norm = matplotlib.colors.Normalize(vmin=mini, vmax=maxi)
colors = [cmap(norm(value)) for value in temp2.products_department]
colors[1] = "#FBFCFE"# 生成标签
labels = ["%s\n%d aisle num\n%d products num" % label for label inzip(temp2.index, temp2.aisle_department, temp2.products_department)]# 创建图形和子图
fig = plt.figure(figsize=(12, 10))
ax = fig.add_subplot(111, aspect="equal")# 绘制树形图
ax = squarify.plot(temp2.aisle_department, color=colors, label=labels, ax=ax, alpha=.7)# 添加图形标题
fig.suptitle("How are aisles organized within departments", fontsize=20)# 去除坐标轴刻度
ax.set_xticks([])
ax.set_yticks([])# 添加颜色条相关设置
img = plt.imshow([temp2.products_department], cmap=cmap)
img.set_visible(False)
fig.colorbar(img, orientation="vertical", shrink=.96)
fig.text(.76, .9, "numbers of products", fontsize=14)# 显示图形
plt.show()

代码中蕴含的知识点:

1. 库的导入与使用

  • pandas:用于数据处理和分析。

    • pd.read_csv():从 CSV 文件中读取数据并创建DataFrame对象。

    • pd.merge():将两个或多个DataFrame按照指定的列进行合并,支持不同的合并方式(如leftrightinner等)。

    • DataFrame.groupby():根据指定的列对数据进行分组,可用于后续的聚合操作。

    • DataFrame.nunique():计算每列中唯一值的数量。

    • pd.concat():将多个SeriesDataFrame沿着指定的轴进行拼接。

    • DataFrame.set_index():将指定的列设置为DataFrame的索引。

    • DataFrame.sort_values():根据指定列的值对DataFrame进行排序。

  • matplotlib.pyplot:Python 中常用的绘图库,用于创建各种静态、交互式的图表。

    • plt.figure():创建一个新的图形窗口。

    • plt.add_subplot():在图形窗口中添加子图。

    • plt.imshow():显示图像,这里用于创建颜色条。

    • plt.colorbar():为图形添加颜色条。

    • plt.text():在图形中添加文本注释。

    • plt.show():显示绘制好的图形。

  • seaborn:基于matplotlib的统计数据可视化库,这里主要用于设置颜色调色板。

    • sns.color_palette():返回一个颜色调色板。

  • matplotlib:Python 中强大的绘图库,提供了丰富的绘图功能和工具。

    • matplotlib.cm.viridis:一个颜色映射对象,用于将数值映射到颜色。

    • matplotlib.colors.Normalize():用于将数据值归一化到指定的范围。

  • squarify:用于绘制树形图(Treemap)的库。

    • squarify.plot():根据给定的数据绘制树形图。

2. 数据处理与分析

  • 数据读取:使用pd.read_csv()函数从 CSV 文件中读取数据,并将其存储为DataFrame对象。

  • 数据合并:使用pd.merge()函数将多个DataFrame按照指定的列进行合并,以便进行后续的分析。

  • 数据聚合:使用groupby()nunique()方法对数据进行分组并计算唯一值的数量,从而得到每个部门的产品数量和通道数量。

  • 数据排序:使用sort_values()方法根据指定列的值对DataFrame进行排序,以便更好地展示数据。

3. 数据可视化

  • 树形图绘制:使用squarify.plot()函数绘制树形图,展示每个部门的通道数量,并根据产品数量对树形图的颜色进行映射。

  • 颜色映射:使用matplotlib.cm.viridis颜色映射对象和matplotlib.colors.Normalize()函数将产品数量映射到颜色,增强可视化效果。

  • 图形设置:使用plt.figure()plt.add_subplot()等函数创建图形窗口和子图,并设置图形的大小、标题、坐标轴刻度等属性。

  • 颜色条添加:使用plt.imshow()plt.colorbar()函数添加颜色条,用于说明颜色与产品数量之间的对应关系。

代码运行结果展示:

【实验总结】

        本次实验围绕绘制板块层级图展开,涵盖数据读取、处理以及可视化等关键环节。在实验中我们成功掌握了数据文件读取、处理方法以及板块层级图的绘制。通过pandas库的read_csv函数读取数据文件,利用mergegroupbynunique等函数对数据进行处理和聚合操作,最终使用squarify库绘制出板块层级图,并对图形进行了美化。

        我们深入理解了板块层级图的原理和应用场景,其基于面积可视化,能有效展示树状结构数据和比例关系。熟练掌握了多个 Python 库的使用,包括pandas用于数据处理与分析、matplotlibseaborn用于数据可视化基础设置、squarify用于绘制板块层级图 。学会了处理数据的技巧,如数据合并、分组聚合、排序等,以及设置图形属性、添加标题、标签和颜色条等可视化操作34

http://www.xdnf.cn/news/2672.html

相关文章:

  • 健康养生:开启品质生活的密钥
  • 【jceks】使用keytool和hadoop credential生成和解析jceks文件(无密码storepass)
  • 零基础搭建AI作曲工具:基于Magenta/TensorFlow的交互式音乐生成系统
  • 【计算机视觉】Bayer Pattern与Demosaic算法详解:从传感器原始数据到彩色图像
  • PostgreSQL无法查看表中数据问题排查
  • ARM32静态交叉编译并使用pidstat教程
  • Docker 获取 Python 镜像操作指南
  • 【Web应用服务器_Tomcat】三、Tomcat 性能优化与监控诊断
  • 菱形继承和虚基表
  • go语言八股文(五)
  • 解决Ubuntu20.04重启出现显卡驱动异常的问题(操作记录)
  • k8s基本概念-YAML
  • git 修改用户名和邮箱
  • 【Docker】——在Docker工具上安装创建容器并完成项目部署
  • 线性代数的本质大白话理解
  • 【Linux系统】进程间通信(管道)
  • 8、HTTPD服务--ab压力测试
  • JAVA EE_网络原理_UDP与TCP
  • 二进制、高位低位、位移操作与进制转换全解
  • 国联股份卫多多与北京慧闻科技(集团)签署战略合作协议
  • Kubernetes(k8s)学习笔记(三)--部署 Kubernetes Master
  • 完美解决.NET Framework 4.0 中 System.Drawing 库不支持 WebP 格式的图像处理
  • Android adb 安装应用失败(安装次数限制)
  • 【现代深度学习技术】循环神经网络07:通过时间反向传播
  • 爬虫学习笔记(二)--web请求过程
  • 从代码学习机器学习 - UMAP降维算法 scikit-learn版
  • 【Linux】基于环形队列的生产消费者模型
  • 机器学习第三篇 模型评估(交叉验证)
  • 腾讯云服务器独立ip服务器优点是什么?服务器需要固定ip吗?
  • WebRtc08:WebRtc信令服务器实现