数据分析基本内容(第二十节课内容总结)
1.pd.read_csv('一个文件.csv')
:
从本地文件加载数据,返回一个 DataFrame
对象,这是 pandas
中用于存储表格数据的主要数据结构
2.df.head()
:
查看数据的前五行,帮助快速了解数据的基本结构和内容
3.df.info()
:
查看数据的特征,包括每列的非空值数量、数据类型以及内存使用情况
4.df.shape
:
返回数据的行数和列数,帮助了解数据的规模
5.df.describe()
:
生成数据的描述性统计信息,如均值、标准差、最小值、最大值等,但默认只对数值型列进行统计
6.df.drop_duplicates(inplace = False)
:
删除重复行,inplace=False
表示返回一个新的 DataFrame
,而不修改原数据
7.data.reset_index(inplace = True,drop = True)
:
重置索引,drop=True
表示丢弃旧的索引
inplace=True
:直接在原数据上修改,节省内存,但会改变原始数据。
inplace=False
:返回一个新的数据对象,原始数据保持不变
drop
:用于删除行或列,可以通过 inplace
参数控制是否直接修改原数据
8.data.loc[data['sale_count'].isnull()].head()
和 data.loc[data['comment_count'].isnull()].tail()
:
分别查看 sale_count
和 comment_count
列中缺失值的前五行和后五行,帮助了解缺失数据的情况
9.data.fillna(0)
:
用 0 填补所有缺失值
10.data.isnull().any()
:
检查数据中是否还有缺失值
11.lcut_for_search
针对搜索引擎的分词模式,更适合提取关键词
12.data.groupby('店名')['销售额'].sum()
:
按店铺名称(店名
)分组,计算每个店铺的总销售额
13.plt.pie
:绘制饼图
autopct='%0f%%'
:
显示百分比格式
pctdistance=0.9
:
百分比标签与饼图中心的距离
14.plt.bar
:绘制柱状图
15.ci=0
:不显示置信区间
16.plt.tight_layout():
自动调整子图的布局,避免标签重叠
17.pctdistance
pctdistance
的值小于 1,百分比标签会显示在饼图内部,距离圆心越近,值越小
pctdistance
的值大于 1,百分比标签会显示在饼图外部
18.ascending
ascending=True 表示按照升序排序(从小到大)
ascending=False 表示按照降序排序(从大到小)