当前位置: 首页 > news >正文

电商平台订单项目分析订单数据分析||电商数据分析项目总结!

订单数据作为电商数据分析中的基础分析项目,本项目就京东的订单数据进行分析。通过电商平台订单API接口数据分析和可视化深挖数据产生的原因,掌握基础的数据分析能力。

1.关于本项目

1.1数据来源

本次数据来源于淘宝某商家 大家电-冰箱的订单数据 按照10%的随机抽样后进行数据脱敏最后得到的订单数据,共有订单数据大约70K,数据来源于公开网络数据。

1.2数据所包含信息

订单中的属性将其分成了3类,分别是用户属性、订单属性以及商品属性

图片

2.数据预处理

本项目使用python对数据进行处理 使用plotly进行数据可视化

import pandas as pd
import numpy as np
import plotly_express as px
import plotly.offline as of
import plotly as py
import plotly.graph_objs as go

读取提供的数据

df=pd.read_csv('data.csv',sep='\t', encoding="utf-8", dtype=str)

查看数据的缺失值

df.isnull().sum().sort_values(ascending=False)

user_site_city_id 38190
user_site_province_id 38033
check_account_tm 23271

通过观察发现,这3个数据有部分缺失值,其中user_site_city_id 用户所在城市编号,user_site_province_id 用户所在省份的编号,check_account_tm支付时间

这部分数据的缺失是因为用户填写个人资料时跳过的部分,当然这不影响我们整个数据的分析

我们首先是将数据的类型进行转换 同时处理缺失值和异常值

  • 值得注意的是,通过观察我们发现冰箱最低的价格是288元,但是数据中发现了很多低于288元的订单数据,我们认为这部分数据不能真实代表冰箱实际的订单数据,可能出现了补差价或者补运费的情况,因此这样的数据我们都过滤掉。

  • 因为订单的编号具有唯一性,因此对于订单编号的重复数据,我们认为出现了重复订单

  • 对于缺失的省份值和缺失的数据,我们将空白地方进行填充

  • 通过观察,我们发现数据的列有重复,对于删除重复的列,这里提供一个比较有意思的做法,将数据反转后,删除重复的行再反转回来。

  • 实际支付的价格=商品数量*优惠后的单价

#删除优惠前价格小于288元的
df = df[df['before_prefr_unit_price' ]>= 288]
#订单编号具有唯一性,因此需要删除重复的数据
df.drop_duplic
http://www.xdnf.cn/news/821503.html

相关文章:

  • IT技术网站汇总
  • 利用picasa2简单制作超炫壁画
  • 撕衣服小游戏原理
  • 非诚勿扰24灯全灭php,收二手货小伙上非诚勿扰,24盏灯全灭还遭羞辱,最后才知道是收二手豪车身价上亿...
  • 零基础C入门到深入简出
  • RPMforge(Repoforge)源
  • 遗传算法求解TSP问题
  • 冒险岛无敌挂小思路
  • dwr
  • WBSC垒球世界杯规则·野球1号位
  • python图书销售管理系统(案例分析)
  • C#:读取数据DataReader
  • shell(7):四则运算
  • RDCMan之DPI 和 Screen Resolution设置
  • browser插入数据 db_SQLite Database Browser数据库查看器图文使用教程
  • ckplayer.js视频播放插件
  • sql中in、exists和not exists的用法
  • 基于PHP的编程类MOOC网站设计与实现
  • MSSQL数据库的安装与使用
  • C++程序正向编译逆向反编译(一)
  • FPGA学习——触发器(FF)
  • MySQL数据库优化(基于酒店2000w条数据)
  • 3dmax vray如何创建真实的灯光?3dmax vray 室内照明教程
  • 番茄花园 Windows XP Pro SP2 美化版 V 6.2
  • LCD1602中文资料
  • java关键字abstract(抽象)详解
  • Android中layout过程详解
  • 网络 || 科来网络分析系统
  • 0磁道损坏的硬盘如何修复?
  • 分享70个Java源码总有一个是你想要的