当前位置: 首页 > java >正文

数据分析—Excel数据清洗函数

在做数据分析的过程中,我们从数据库或者网页中获取的外部数据,通常是无法直接使用进行数据分析的。数据经常会有尾随的空格、奇奇怪怪的前缀和非打印字符等等问题,那么我们就需要先对数据进行清洗。下面介绍一些在数据清洗过程中常用的Excel函数集合~

一、删除不需要字符的函数

1、TRIM、LTRIM、RTRIM函数

在做数据清洗时,经常需要去除数据两端的空格,那么TRIM、LTRIM、RTRIM这3个函数就可以帮到你啦~TRIM函数:主要是用来去除单元格内容前后的空格,但不会去除字符之间的空格。

表达式:=TRIM(文本)

例子:去除单元格A1字符串前后的空格

ps. LTRIM、RTRIM与TRIM函数的使用方法一样~LTRIM函数用来去除单元格内容左边的空格,RTRIM函数:用来去除单元格内容右边的空格。
在这里插入图片描述

2、CLEAN函数

CLEAN函数可以删除数据中的非打印字符 。

表达式为:=CLEAN(文本)

例子:通过CLEAN函数去除换行符

二、获取字符串

1、LEFT、RIGHT函数

LEFT函数可以从左侧获取指定数目的字符串。

表达式:=LEFT(文本, 个数)

例子:通过LEFT函数获取字符串前4个字符

ps. RIGHT函数的使用方法与LEFT差不多,是从右侧开始提取

2、MID函数

MID函数主要作用是提取指定位置后固定位数的字符串。

表达式:=MID(文本, 提取子串的起始位置, 提取的子串长度)

例子:通过MID函数提取身份证号码里的出生年月日。

三、替代字符串函数

1、REPLACE函数

REPLACE函数主要是将字符串固定位置后一定长度的子串替代为指定的子串。

表达式:=REPLACE(文本, 被替代子串的起始位置, 被替代子串长度, 指定的替代文本)

例子:将手机号码后4位替换为星号

2、SUBSTITUTE函数

SUBSTITUTE函数跟REPLACE函数相似,也是替换掉字符串中的子串。SUBSTITUTE函数主要输入被替换的子串和指定的子串就可以将文本里的被替换子串全部替换掉。

表达式:=SUBSTITUTE(文本, 被替换的子串, 指定的子串)

例子:除了替换手机号外,还有就是将指定字符串中的空格全部去除

四、返回字符所在位置

1、FIND函数

FIND函数可以返回一个字符在字符串中所处的位置,区分大小写。其中第三个参数查找第几个字符的位置可以不填,默认为1,就是查找第1个指定字符所在的位置。

表达式:=FIND(要查找的字符, 字符串, [查找第几个字符])

例子:可以与LEFT函数组合起来提取邮箱的名称

2、SEARCH函数

SEARCH函数与FIND函数基本一致,就是不区分查找字符的大小写。

表达式:=SEARCH(要查找的字符, 字符串, [查找第几个字符])

例子:

五、其他

1、LEN、LENB函数

LEN、LENB函数能够获取字符串的长度,LEN函数下中文长度为1,LENB函数下中文长度为2。

表达式:=LEN(文本)

例子:

2、CONCATENATE函数

CONCATENATE函数用于将几个单元格的数据连接起来。

表达式:=CONCATENATE(单元格1, 单元格2, 文本, 单元格3)

例子:使用CONCATENATE函数通过前几个代码连接在一起形成学生学号

3、TEXT函数

TEXT函数可以将数值转换为我们想要的文本格式。

表达式:=TEXT(数值, 格式)

例子:将提取的身份证值按指定格式输出

在这里插入图片描述

http://www.xdnf.cn/news/7311.html

相关文章:

  • Compose Kotlin Multiplatform跨平台基础运行
  • CM0启动CM7_0、CM7_1注意事项
  • PCB设计教程【入门篇】——电路分析基础-基本元件(电阻电容电感)
  • Docker 入门指南:从安装配置到核心概念解析
  • [ 计算机网络 ] | 宏观谈谈计算机网络
  • 十三、Hive 行列转换
  • 计算机视觉与深度学习 | Python实现ARIMA-WOA-CNN-LSTM时间序列预测(完整源码和数据
  • netcore项目使用winforms与blazor结合来开发如何按F12,可以调出chrome devtool工具辅助开发
  • 通过低功耗蓝牙通信实例讲透 MCU 各个定时器
  • AT 指令详解:基于 MCU 的通信控制实战指南AT 指令详解
  • ESP32开发-两个WIFI设备的通讯搭建
  • AI大模型从0到1记录学习numpy pandas day25
  • 无人设备遥控器之数据压缩与编码技术篇
  • PLC组网的方法、要点及实施全解析
  • android13以太网静态ip不断断开连上问题
  • C++(24):容器类<list>
  • Unreal 从入门到精通之SceneCaptureComponent2D实现UI层3D物体360°预览
  • MAC常用操作整理
  • MAC电脑中右键后复制和拷贝的区别
  • C++:与7无关的数
  • 基于 Vue 和 Node.js 实现图片上传功能:从前端到后端的完整实践
  • 汽车零部件的EMI抗扰性测试
  • Java中的流详解
  • vue3 vite 路由
  • 容器化-K8s-镜像仓库使用和应用
  • Ubuntu Desktop QEMU/KVM中使用Ubuntu Server 22.04配置k8s集群
  • k8s1.27集群部署mysql8.0双主双从
  • psotgresql18 源码编译安装
  • AutoMouser - 单次AI调用铸就高效自动化脚本
  • mariadb 升级 (通过yum)