双11美妆数据分析
1. 导入库使用Python进行分析,需要导入相关库: pythonimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns 1. 读取数据1. 查看数据基本信息 查看前几行:使用 df.head() 查看数据的前5行(默认),了解数据大致结构和内容。 查看数据形状: df.shape 可以获取数据的行数和列数,了解数据集规模。 查看数据类型: df.dtypes 查看每列的数据类型,判断是否存在数据类型不合理的情况。 查看统计摘要: df.describe() 对数值型列给出计数、均值、标准差、最小值、四分位数和最大值等统计信息。 数据清洗 1. 处理缺失值 检测缺失值: df.isnull().sum() 统计每列缺失值数量。 处理方式: 对于少量缺失值且该列是数值型,可考虑用均值填充 若是分类数据,可用众数填充 若缺失值较多且对分析影响大,可考虑删除整行或整列 2. 处理重复值 检测重复值: df.duplicated().sum() 统计数据中重复行的数量。处理方式:使用 df.drop_duplicates(inplace=True) 删除重复行。 3. 处理异常值 对于数值型数据,可通过箱线图查看异常值 处理异常值可采用盖帽法数据分析及可视化 1. 美妆产品销售总额分析 计算销售总额 可视化:使用柱状图展示销售总额1. 不同品牌销售情况分析 计算各品牌销售额可视化:用条形图展示各品牌销售额排名 1. 美妆品类销售占比分析 计算品类占比 可视化:使用饼图展示各品类销售占比