当前位置: 首页 > ds >正文

SQL常用数据清洗语句

数据清洗:发现并纠正数据文件里的数据错误和不一致性,让数据达到分析要求的过程。
运用 SQL 进行数据清洗时,可借助多种语句和函数来处理数据中的缺失值、重复值、异常值以及格式错误等问题。

1. 处理缺失值

数据中某些变量的值为空的情况,可采用删除包含缺失值的记录、用合适的值(如平均值、中位数等)来填充的方法。

删除包含缺失值的记录

DELETE FROM table_name
WHERE column_name IS NULL;

用特定值填充缺失值

UPDATE table_name
SET column_name = 'default_value'
WHERE column_name IS NULL;

用平均值填充缺失值

UPDATE table_name
SET column_name = (SELECT AVG(column_name) FROM table_name)
WHERE column_name IS NULL;

2. 处理重复值

数据中存在的完全相同或者部分字段相同的记录,可以使用 DISTINCT 关键字来去除重复值。

使用 DISTINCT 关键字查询无重复的数据

SELECT DISTINCT column1, column2
FROM table_name;

3. 处理异常值

数据中偏离正常范围的值,可以通过定义合理的范围来筛选出异常值,然后进行删除或者修正。

-- 删除价格小于 0 或者大于 1000 的异常记录
DELETE FROM products
WHERE price < 0 OR price > 1000;

4. 处理格式错误

数据格式不符合预期,例如日期格式错误、字符串长度不符合要求等。可以使用字符串函数和日期函数来修正格式错误。

转换日期格式

-- 将日期从 'YYYY-MM-DD' 格式转换为 'DD/MM/YYYY' 格式
SELECT DATE_FORMAT(date_column, '%d/%m/%Y')
FROM table_name;

去除字符串前后的空格

SELECT TRIM(column_name)
FROM table_name;

处理大小写不一致

-- 将所有姓名转换为大写
SELECT UPPER(name)
FROM customers;
http://www.xdnf.cn/news/2842.html

相关文章:

  • Python爬虫学习路径与实战指南 02
  • 苍穹外卖10
  • React学习
  • Spring系列四:AOP切面编程第四部分
  • 计网分层体系结构(包括OSI,IP,两者对比和相关概念)
  • 免费LUT网站
  • 花费7元训练自己的GPT 2模型
  • 4月28日信息差全景:国际局势、科技突破与市场震荡一、国际政治与安全:俄乌冲突关键转折
  • 利用Python生成Xilinx FPGA ROM IP核 .coe初始化文件
  • Python面试问题
  • 贪心算法-2208.将数组和减半的最小操作数-力扣(LeetCode)
  • 遥控器的智能跟踪与多路径优化模块要点!
  • 【网络编程】TCP/IP四层模型、MAC和IP
  • MySQL 的ANALYZE与 OPTIMIZE命令
  • 使用 ELK 实现全链路追踪:从零到一的实践指南
  • pycharm 配置路径映射 将本地文件映射(mapping)到远程服务器上
  • [Spring] Seata详解
  • Missashe考研日记-day29
  • 6.进程概念(中)
  • 智能指针之设计模式6
  • 项目立项管理
  • Android Studio 安装 Continue插件
  • 数据库中的主键(Primary Key)
  • uni-app vue3 实现72小时倒计时功能
  • css中:is和:where 伪函数
  • Dia-1.6B环境搭建推理测试
  • docker本地部署ClipCascade,实现跨设备剪贴板同步
  • 【大语言模型开发】BPE算法(Byte-Pair)
  • 跨端开发技术总结
  • Python爬虫实战:获取软科网最新特定专业大学排名数据并做分析,为高考填报志愿做参考