当前位置：首页 > ai >正文

spark数据清洗

ai 2025/8/28 1:07:38

import org.apache.spark.{SparkConf, SparkContext}object DataFilter {// 思路// 1. 读取数据,读入文本文件// 2. 对于文件中的每一行//    拆分出年龄split(",")(1)//    判断是不是数字，是，就保留记录"45","abc" (正则表达式 \d+)// 3. 把过滤之后的内容，保存到文件saveAsTexttFile()def main(args: Array[String]): Unit = {// 创建sparkval conf = new SparkConf().setAppName("DataFilter").setMaster("local[*]")val sc = new SparkContext(conf)val rdd = sc.textFile("data/file.txt")// 过滤之后的rddvar rdd1 = rdd.filter(line => {// 拆分出年龄val age = line.split(",")(1)// 判断年龄是否是数字println(age)age.matches("\\d+")})//将所有的分区数据合并成一个分区rdd1 = rdd1.coalesce(1)//保存到文件rdd1.saveAsTextFile("data/file1.txt")}
}

http://www.xdnf.cn/news/6001.html

相关文章：

代码随想录训练营第二十三天| 572.另一颗树的子树 104.二叉树的最大深度 559.N叉树的最大深度 111.二叉树的最小深度

编程日志5.5

第8章-9 优化技巧2

2025年Flutter项目管理技能要求

数据库系统概论（八）SQL单表查询语言超详细讲解（附带例题表格对比带你一步步掌握）

智能体制作学习笔记1——智能体

【前端】：单 HTML 去除 Word 批注

实战案例：采集 51job 企业招聘信息

[特殊字符] VMware虚拟机挂起后Docker容器MySQL无法连接的解决方案

Java类与对象的描述及内存原理

激光打印机常见打印故障简单处理意见

WebPageTest 多地域测试

ElasticSearch深入解析（十一）：分页和分批统计的三种实现

【AI论文】健康的大型语言模型（LLMs）？——评估大型语言模型对英国政府公共健康信息的掌握程度

TypeScript 知识框架

Python之with语句

高级 Java 锁技术：超越基本同步

应用探析|千眼狼PIV测量系统在职业病防治中的应用

idea2021创建web项目及其整合tomcat

CodeBuddy 中国版 Cursor 实战：Redis+MySQL双引擎驱动〈王者荣耀〉战区排行榜

阳光学院【2020下】计算机网络原理-A卷-试卷-期末考试试卷

中国区adsense接收pin码，身份验证和地址验证指南

AD Class创建与Class应用

求由无穷串构成的二进制数的值

初始“协议”

IPD流程实战：产品开发各阶段目标、关注点和交付

基于概率论与数理统计的股市预测模型研究

WHAT - 《成为技术领导者》思考题（第九章）

【漫话机器学习系列】256.用 k-NN 填补缺失值