大数据应用开发和项目实战-电商双11美妆数据分析
数据初步了解
(head出现,意味着只出现前5行,如果只出现后面几行就是tail)
info
shape
describe
数据清洗
重复值处理
这个重复值是否去掉要看实际情况,比如说:昨天卖了5瓶七喜,今天卖了5瓶七喜,同样的数量,这种重复值就不能删除,要有一个合理的解释去说明删除的是无效重复数据。
缺失值处理
存在的缺失值很可能意味着售出的数量为0或者评论的数量为0,所以我们用0来填补缺失值
数据挖掘寻找新的特征
街道库(jieba)的使用方法,包括精确模式、全模式和搜索引擎模式的不同应用场景。
给出各个关键词的分类类别
创建主类别和子类别,并通过关键词进行标签化
由title新生成两列类别
通过中文分词技术对title列进行处理,将其分为大类和小类,便于后续数据分析。
对是否是男性专用进行分析并新增一列
对每个产品总销量新增销售额这一列
数据分析及可视化
使用Python进行数据可视化,包括绘制柱形图和饼图
通过代码实现数据的排序和分组,并生成相应的图表