当前位置: 首页 > news >正文

数据初步了解


 
数据初步了解
 
1. 导入库并读取数据
 
-  import numpy as np  和  import pandas as pd  导入了常用的数值计算库  numpy  和数据处理库  pandas 。
 
-  df = pd.read_csv('双十一淘宝美妆数据.csv')  读取了名为  双十一淘宝美妆数据.csv  的文件,并将数据存储在  df  这个  DataFrame  对象中。
 
-  df.head()  查看数据的前五行,用于快速了解数据的结构和内容。
 
2. 查看数据特征
 
-  df.info()  用于查看数据的基本信息,包括每列的数据类型、非空值数量等。可以看出数据有27598条记录,7列。
 
3. 查看数据形状和描述性统计
 
-  df.shape  查看数据的形状,即行数和列数,这里是(27598, 7) 。
 
-  df.describe()  对数据中的数值型列(如  price 、 sale_count 、 comment_count  )进行描述性统计,展示计数、均值、标准差、最小值、四分位数和最大值等信息。
 
数据清洗
 
1. 重复值处理
 
-  data = df.drop_duplicates(inplace = False)  删除数据中的重复行, inplace = False  表示不直接在原数据  df  上操作,而是返回一个新的  DataFrame  赋值给  data 。
 
-  data.reset_index(inplace = True,drop = True)  重置索引, drop = True  表示不保留原来的索引列。
 
- 处理后数据从27598行减少到27512行,说明有86条重复数据被删除。
 
2. 缺失值处理
 
- 先通过  data['sale_count'].isnull()  等语句观察  sale_count  和  comment_count  列的缺失值情况。
 
- 然后使用  data = data.fillna(0)  将缺失值用0填充, data.isnull().any()  再次检查是否还有缺失值,结果显示各列均无缺失值。
 
数据挖掘与新特征提取
 
1. 文本分词
 
-  import jieba  导入结巴分词库。
 
- 对  title  列进行分词,通过循环将分词结果存储在新的  subtitle  列中,以便进一步分析文本内容。
 
2. 商品分类
 
- 手动定义了一些商品分类规则,将美妆产品划分为不同的主类别和子类别,如护肤品下的乳液类、面霜类等。
 
- 通过一系列字符串操作和判断,为数据新增  main_type (主类别)和  sub_type (子类别)两列,完善数据的类别信息。
 

http://www.xdnf.cn/news/299503.html

相关文章:

  • 论文速读:《CoM:从多模态人类视频中学习机器人操作,助力视觉语言模型推理与执行》
  • 电池热管理CFD解决方案,为新能源汽车筑安全防线
  • TikTok 矩阵账号运营实操细节:打造爆款矩阵
  • SpringBoot整合Kafka、Flink实现流式处理
  • 三种信号本振
  • Redis 7.0中5种新特性及实战应用
  • 【ArcGISPro】创建要素和刷新数据库后卡顿
  • 浔川AI 第二次内测报告
  • 数据可视化与分析
  • Flutter开发IOS蓝牙APP的大坑
  • 购物数据分析
  • 云境天合水陆安全漏电监测仪—迅速确定是否存在漏电现象
  • OS7.【Linux】基本指令入门(6)
  • FPGA实战项目1——坦克大战
  • HarmonyOS 5.0 分布式数据协同与跨设备同步​​
  • 在sheel中运行Spark
  • 【quantity】0 README.md文件
  • Linux服务之nginx中高级配置
  • C++笔记-二叉搜索树(包括key,key/value搜索场景等)
  • 一个基于Netty和WebRTC的实时通讯系统
  • 大数据应用开发和项目实战-电商双11美妆数据分析
  • LangChain入门(六)Agent
  • 演讲学习的总结
  • CentOS虚拟机固定ip以及出现的问题
  • 极狐Gitlab 里程碑功能介绍
  • 如何监控Kafka的Lag(消费延迟)?
  • 如何使用 QuickAPI 推动汽车行业数据分享:数据仓库场景下的实践
  • SQL Server 备份加密和解密还原
  • Linux 系统上安装 Firefox 浏览器的完整指南
  • [人机交互]理解用户