当前位置: 首页 > news >正文

电商双十一美妆数据分析

1. 数据读取与基础查看

 

  • 库导入:使用 import numpy as np 和 import pandas as pd 导入常用数据分析库。
  • 数据读取: df = pd.read_csv('双十一_淘宝美妆数据.csv') 读取数据文件。
  • 数据查看:通过 df.head() 查看数据前几行; df.info() 了解数据特征(列名、数据类型、非空值数量等) ; df.shape 查看数据行列数; df.describe() 获取数值型列的统计摘要。

 

2. 数据清洗

 

  • 重复值处理: data = df.drop_duplicates(inplace = False).reset_index(inplace = True,drop = True)  用于删除重复数据,并重置索引。
  • 缺失值处理:识别 sale_count 和 comment_count 列的缺失值, data.loc[data['sale_count'].isnull()] 查看缺失行,然后用 data = data.fillna(0) 以0填充缺失值。

 

3. 特征工程

 

  • 商品子类别提取:利用 jieba 库分词,通过循环从 title 列提取子类别信息,添加到新列 subtitle 。
  • 商品类别划分:基于关键词字典,为商品划分 main_type (主类别)和 sub_type (子类别)。
  • 是否男士专用判断:通过循环判断 subtitle 中是否含男士专用关键词,添加 是否男士专用 列。
  • 销售额计算:新增 销售额 列, data['销售额'] = data.price * data.sale_count  ,通过单价和销量计算得出。

 

 

http://www.xdnf.cn/news/306451.html

相关文章:

  • TypeScript速成
  • 使用原生 CSS 实现轮播
  • # YOLOv1:开启实时目标检测的新时代
  • Python基础学习-Day17
  • 20. LangChain电商场景:构建智能客服与个性化推荐系统
  • BufferGeometryUtils
  • Qt案例 以单线程或者单生产者多消费者设计模式实现QFTP模块上传文件夹功能
  • 基于GA遗传优化的不同规模城市TSP问题求解算法matlab仿真
  • 如何在 Ubuntu 24.04 本地安装 DeepSeek ?
  • STM32H743单片机实现ADC+DMA多通道检测
  • Python生活手册-Numpy数组索引:从快递柜到咖啡店的数字化生活指南
  • 易境通货代系统:如何用一套系统解决货代多业务场景痛点?
  • 机器学习-简要与数据集加载
  • 影刀RPA中使用AI模型
  • java中hashmap源码解析(jdk1.8)
  • 代码mark:脚本获取包含全角字符的字符串的长度
  • php中serialize和unserialize的用法详解
  • 开源模型应用落地-qwen模型小试-Qwen3-8B-推理加速-vLLM-Docker(二)
  • 鸿蒙NEXT开发动画(风格的弹性缩放加载动画组件)
  • 长实公布新盘案名“花语海” 打造全新“维港都会公园圈”
  • Dubbo(99)如何在区块链系统中应用Dubbo?
  • RLOO:将多次其他回答的平均reward作为baseline
  • [250505] Arch Linux 正式登陆 Linux 的 Windows 子系统
  • 电动金属硬密封蝶阀泄露等级:水、蒸汽、油品介质的零泄漏守护方案-耀圣
  • Relay 算子调用流程
  • Java 函数式编程
  • 高斯计校准的重要性
  • 【C语言】推箱子小游戏
  • 初步认识java
  • 精益数据分析(42/126):移动应用商业模式的深度剖析与实战要点