当前位置: 首页 > ops >正文

RDD转换算子案例

import org.apache.spark.{SparkConf, SparkContext}object Main {def main(args: Array[String]): Unit = {//打印hello worldprintln("hello world")//学习spark RDD中的转换算子//1.map://2.filter:过滤//3.flatMap:flat (扁平化) + map (映射)//4.reduceByKey:键值对的数据 (world,1),(hello,1)val conf = new SparkConf().setMaster("local[*]").setAppName("Test")val sc = new SparkContext(conf)//创建一个RDD//val rdd = sc.parallelize(List(1,2,3,4,5,6,7,8,9,10))//val rdd1=rdd.map(x=>x*2)//使用filter算子,保留偶数//val rdd1=rdd.filter(x => x % 2 == 0)//有多个句子,每个句子有多个单词,单词之间使用空格隔开//目标,把所有的单词找出来,放一个数组中//val rdd = sc.parallelize(List("hello world", "hello scala"))//val rdd1 = rdd.flatMap(_.split(" "))//hello world hello scala//词填统计的列子val rdd = sc.parallelize(List("apple", "banana", "apple",  "banana", "apple"))//val rdd1 = rdd.map(x => (x,1))//val rdd3 = rdd1.reduceByKey((x,y) => x + y)rdd.map(x => (x,1)).reduceByKey((x,y) => x + y).collect().foreach(println)//collect() 行动算子
//    rdd3.collect().foreach(println)}
}
http://www.xdnf.cn/news/4988.html

相关文章:

  • 我的AD快捷键方案【留存】
  • C++ -- string
  • 裸机上的 printf:在无操作系统环境下构建 C 标准库
  • 《工业计算机硬件技术支持手册》适用于哪些人群?
  • STM32F103RCT6 + MFC实现网口设备搜索、修改IP、固件升级等功能
  • 西门子 PLC 串口转网口模块(三格电子)
  • 前端使用腾讯地图api实现定位功能
  • Spring生态全景解析:Spring、Spring MVC、SpringBoot与Spring Cloud的关系
  • Google的A2A和MCP什么关系
  • 数据库的SQLSTATE[23000]异常,通过自定义异常类来提供更友好的提示信息
  • STC32G12K128-旋转编码器-软件去抖
  • QT6(35)4.8定时器QTimer 与QElapsedTimer:理论,例题的界面搭建,与功能的代码实现。
  • CSS display: none
  • 2025 年数维杯数学建模B题完整论文代码模型
  • 2025 年数维杯数学建模 C 题完整论文代码模型
  • Linux——进程信号
  • MySQL中的连接池
  • java------------反射
  • JAVA,大花猫大黑狗例题
  • 敦普水性无铬锌铝涂层:汽车紧固件防锈15年,解决螺栓氢脆腐蚀双痛点
  • linux中的日志分割
  • sklearn自定义pipeline的数据处理
  • c++中new和malloc 分配内存有什么不同
  • VSCode远程无法选择虚拟环境问题
  • 官方SDK停更后的选择:开源维护的Bugly Unity SDK
  • 《深挖Java中的对象生命周期与垃圾回收机制》
  • 麒麟系统安装 Nginx 作为非 Web 程序的完整指南
  • 自定义prometheus exporter实现监控阿里云RDS
  • 【彻底卸载nginx并部署nginx1.22.1+ssl模块等】
  • 供应链管理系统建设方案,技术方案(Word)