当前位置: 首页 > ai >正文

spark数据清洗

import org.apache.spark.{SparkConf, SparkContext}object DataFilter {// 思路// 1. 读取数据,读入文本文件// 2. 对于文件中的每一行//    拆分出年龄split(",")(1)//    判断是不是数字,是,就保留记录"45","abc" (正则表达式 \d+)// 3. 把过滤之后的内容,保存到文件saveAsTexttFile()def main(args: Array[String]): Unit = {// 创建sparkval conf = new SparkConf().setAppName("DataFilter").setMaster("local[*]")val sc = new SparkContext(conf)val rdd = sc.textFile("data/file.txt")// 过滤之后的rddvar rdd1 = rdd.filter(line => {// 拆分出年龄val age = line.split(",")(1)// 判断年龄是否是数字println(age)age.matches("\\d+")})//将所有的分区数据合并成一个分区rdd1 = rdd1.coalesce(1)//保存到文件rdd1.saveAsTextFile("data/file1.txt")}
}
http://www.xdnf.cn/news/6001.html

相关文章:

  • 代码随想录训练营第二十三天| 572.另一颗树的子树 104.二叉树的最大深度 559.N叉树的最大深度 111.二叉树的最小深度
  • 编程日志5.5
  • 第8章-9 优化技巧2
  • 2025年Flutter项目管理技能要求
  • 数据库系统概论(八)SQL单表查询语言超详细讲解(附带例题表格对比带你一步步掌握)
  • 智能体制作学习笔记1——智能体
  • 【前端】:单 HTML 去除 Word 批注
  • 实战案例:采集 51job 企业招聘信息
  • [特殊字符] VMware虚拟机挂起后Docker容器MySQL无法连接的解决方案
  • Java类与对象的描述及内存原理
  • 激光打印机常见打印故障简单处理意见
  • WebPageTest 多地域测试
  • ElasticSearch深入解析(十一):分页和分批统计的三种实现
  • 【AI论文】健康的大型语言模型(LLMs)?——评估大型语言模型对英国政府公共健康信息的掌握程度
  • TypeScript 知识框架
  • Python之with语句
  • 高级 Java 锁技术:超越基本同步
  • 应用探析|千眼狼PIV测量系统在职业病防治中的应用
  • idea2021创建web项目及其整合tomcat
  • RuoYi-Cloud
  • CodeBuddy 中国版 Cursor 实战:Redis+MySQL双引擎驱动〈王者荣耀〉战区排行榜
  • 阳光学院【2020下】计算机网络原理-A卷-试卷-期末考试试卷
  • 中国区adsense接收pin码,身份验证和地址验证指南
  • AD Class创建与Class应用
  • 求由无穷串构成的二进制数的值
  • 初始“协议”
  • IPD流程实战:产品开发各阶段目标、关注点和交付
  • 基于概率论与数理统计的股市预测模型研究
  • WHAT - 《成为技术领导者》思考题(第九章)
  • 【漫话机器学习系列】256.用 k-NN 填补缺失值