当前位置: 首页 > ai >正文

Spark,数据清洗

数据清洗

先创建一个文档然后写几条数据

eg:如下姓名+年龄+性别 而数据中我们可明显看到第2,7行数据是错误的,现在我们把它洗掉

代码展示

运行结果:可以看到“脏”数据已经被洗出去了

【拓展】:如何把清洗之后的数据保存到一个文件中?

答:可以使用coalesce(1)这个方法可以让结果全部保存在一个文件中。

val singlePartitionRDD = cleanedLines.coalesce(1)// 保存清洗后的数据到文件val outputPath = "path/to/your/output/file.txt"singlePartitionRDD.saveAsTextFile(outputPath)// 停止 SparkContextsc.stop()

 

http://www.xdnf.cn/news/6512.html

相关文章:

  • k8s部署实战-springboot应用部署
  • 技术融资:概念与形式、步骤与案例、挑战与应对、发展趋势
  • python打卡训练营Day27
  • 爬虫基础之抓包工具的使用
  • Spring Boot循环依赖的陷阱与解决方案:如何打破“Bean创建死循环”?
  • (面试)Android各版本新特性
  • Oracle学习日记--Oracle中使用单个inert语句实现插入多行记录
  • 支付宝小程序关键词排名优化中的常见错误
  • Linux下载与安装
  • leetcode:58. 最后一个单词的长度(python3解法)
  • SearchClassUtil
  • 102. 二叉树的层序遍历
  • “光伏+储能+智能调控”,CET中电技术分布式智能微网方案如何实现?
  • 多线程(四)
  • 云服务器的运用自如
  • 数学复习笔记 14
  • [CSS3]属性增强1
  • 回调函数应用示例
  • 网络安全-等级保护(等保) 2-5-1 GB/T 25070—2019 附录B (资料性附录)第三级系统安全保护环境设计示例
  • IEC 60601-2-16:2025 标准解析
  • python打卡day27
  • TCP/IP 知识体系
  • 国标GB/T 12536-90滑行试验全解析:纯电动轻卡行驶阻力模型参数精准标定
  • 【AI大模型学习路线】第二阶段之RAG基础与架构——第七章(【项目实战】基于RAG的PDF文档助手)query搜索与文档排序?
  • win10-django项目与mysql的基本增删改查
  • 从代码学习深度学习 - 实战Kaggle比赛:狗的品种识别(ImageNet Dogs)PyTorch版
  • 关于nginx浏览器访问.php直接被当做文件下载相关问题
  • Github 2025-05-16 Java开源项目日报 Top9
  • OM和SCADA的区别
  • 目标检测指标计算