当前位置：首页 > ds >正文

数据分析基本内容（第二十节课内容总结）

ds 2025/8/13 7:27:02

`1.pd.read_csv('一个文件.csv')`：

从本地文件加载数据，返回一个 DataFrame 对象，这是 pandas 中用于存储表格数据的主要数据结构

`2.df.head()`：

查看数据的前五行，帮助快速了解数据的基本结构和内容

`3.df.info()`：

查看数据的特征，包括每列的非空值数量、数据类型以及内存使用情况

`4.df.shape`：

返回数据的行数和列数，帮助了解数据的规模

`5.df.describe()`：

生成数据的描述性统计信息，如均值、标准差、最小值、最大值等，但默认只对数值型列进行统计

`6.df.drop_duplicates(inplace = False)`：

删除重复行，inplace=False 表示返回一个新的 DataFrame，而不修改原数据

`7.data.reset_index(inplace = True,drop = True)`：

重置索引，drop=True 表示丢弃旧的索引

inplace=True：直接在原数据上修改，节省内存，但会改变原始数据。

inplace=False：返回一个新的数据对象，原始数据保持不变

drop：用于删除行或列，可以通过 inplace 参数控制是否直接修改原数据

`8.data.loc[data['sale_count'].isnull()].head()` 和 `data.loc[data['comment_count'].isnull()].tail()`：

分别查看 sale_count 和 comment_count 列中缺失值的前五行和后五行，帮助了解缺失数据的情况

`9.data.fillna(0)`：

用 0 填补所有缺失值

`10.data.isnull().any()`：

检查数据中是否还有缺失值

`11.lcut_for_search`

针对搜索引擎的分词模式，更适合提取关键词

12.`data.groupby('店名')['销售额'].sum()`：

按店铺名称（店名）分组，计算每个店铺的总销售额

13.`plt.pie`：绘制饼图

`autopct='%0f%%'`：

显示百分比格式

`pctdistance=0.9`：

百分比标签与饼图中心的距离

14.`plt.bar`：绘制柱状图

15.`ci=0`：不显示置信区间

16.`plt.tight_layout():`

自动调整子图的布局，避免标签重叠

17.pctdistance

pctdistance 的值小于 1，百分比标签会显示在饼图内部，距离圆心越近，值越小

pctdistance 的值大于 1，百分比标签会显示在饼图外部

18.ascending

ascending=True 表示按照升序排序（从小到大）

ascending=False 表示按照降序排序（从大到小）

查看全文

http://www.xdnf.cn/news/17792.html

Milvus入门：开源向量数据库，解锁大模型时代的高效检索

kafka初步介绍

不废话，UE5极速云渲染操作方法

STM32_bug总结（TIM定时中断进不去和只进1次）

MyBatis持久层实现

全面解析MySQL(5)——“索引、事务、JDBC”三大核心

PostgreSQL——数据查询

【K8s】部署安装K8s为什么要关闭swap分区？

Day50--图论--98. 所有可达路径（卡码网），797. 所有可能的路径

元宇宙虚拟金融服务全景解析：技术创新、场景重构与未来趋势

一体化步进伺服电机在无人机舱门应用中的应用案例

使用Gradle手搓一个Kotlin/Native项目

CMU-15445(9)——PROJECT#3-Query Execution-Task#2Task#3

从0-1搭建webpack的前端工程化项目

【前端基础】15、列表元素、表格元素、表单元素（注：极其粗略的记载。）

（3万字详解）Linux系统学习：深入了解Linux系统开发工具

js异步操作 Promise ：fetch API 带来的网络请求变革—仙盟创梦IDE

Java Web项目后台管理系统之内容管理仿写：内容、搜索、页码加载

Zabbix携手Grafana打造炫酷监控大屏

【Linux文件操作】文件操作系统调用

19.Linux DHCP服务

2025.8.6 图论（1）Solution

MySQL 基本语法

对自己的 app 进行分析, 诊断，审视

多路转接 select

1.pd.read_csv('一个文件.csv')：

2.df.head()：

3.df.info()：

4.df.shape：

5.df.describe()：

6.df.drop_duplicates(inplace = False)：

7.data.reset_index(inplace = True,drop = True)：

8.data.loc[data['sale_count'].isnull()].head() 和 data.loc[data['comment_count'].isnull()].tail()：

9.data.fillna(0)：

10.data.isnull().any()：

11.lcut_for_search

12.data.groupby('店名')['销售额'].sum()：

13.plt.pie：绘制饼图

autopct='%0f%%'：

pctdistance=0.9：

14.plt.bar：绘制柱状图

15.ci=0：不显示置信区间

16.plt.tight_layout():