当前位置: 首页 > news >正文

Spark,在shell中运行RDD程序

在hdfs中/wcinput中创建一个文件:word2.txt在里面写几个单词

启动hdfs集群

[root@hadoop100 ~]# myhadoop start

[root@hadoop100 ~]# cd /opt/module/spark-yarn/bin

[root@hadoop100 ~]# ./spark-shell

写个1+1测试一下

按住ctrl+D退出

 进入环境:spark-shell --master yarn

逐个写代码:

    // 读取文件,得到RDDval rdd1 = sc.textFile("hdfs://hadoop100:8020/wcinput/word2.txt")// 将单词进行切割,得到一个存储全部单词的RDDval rdd2= rdd1.flatMap(line => line.split(" "))// 将单词转换为元组对象,key是单词,value是数字1val rdd3= rdd2.map(word => (word, 1))// 将元组的value按照key来分组,对所有的value执行聚合操作(相加)val rdd4= rdd3.reduceByKey((num1, num2) => num1 + num2)// 收集RDD的数据并打印输出结果rdd4.collect().foreach(println)// 将结果储存在out111中rdd.saveAsTextFile("hdfs://hadoop100:8020/out111")

在根目录下可见out111文件,文件打开后可以看到,word2.txt文件内单词被拆分

RDD的执行过程

http://www.xdnf.cn/news/353629.html

相关文章:

  • 【SQL系列】多表关联更新
  • 手持气象仪:能够实时测量多种气象参数,保数据采集的准确性与实时性
  • 掌握Multi-Agent实践(三):ReAct Agent集成Bing和Google搜索功能,采用推理与执行交替策略,增强处理复杂任务能力
  • Spring Boot 框架概述
  • 【计算机视觉】Car-Plate-Detection-OpenCV-TesseractOCR:车牌检测与识别
  • 【css】css统一设置变量
  • 更新 / 安装 Nvidia Driver 驱动 - Ubuntu - 2
  • 数据类型详解(布尔值、整型、浮点型、字符串等)-《Go语言实战指南》
  • istio in action之Gateway流量入口与安全
  • 分析NVIDIA的股价和业绩暴涨的原因
  • Zabbix监控 RabbitMQ 指定消息队列名称(pull_alarms )的消费者
  • 富乐德传感技术盘古信息 | 锚定“未来工厂”新坐标,开启传感器制造行业数字化转型新征程
  • IC解析之TPS92682-Q1(汽车LED灯控制IC)
  • 【C/C++】C语⾔内存函数
  • [Errno 122] Disk quota exceeded
  • Linux59 SSH配置前瞻 JumpServer双网卡ping通
  • 金仓数据库永久增量备份技术原理与操作
  • 电商平台如何做好DDoS 攻防战?
  • 物流基础知识-术语 | 医药物流(1)
  • OpenHarmony平台驱动开发(十),MMC
  • k8s监控方案实践(二):集成Alertmanager告警与钉钉Webhook通知
  • C23 与 MISRA C:2025:嵌入式 C 语言的进化之路
  • 4.3【LLaMA-Factory实战】教育大模型:个性化学习路径生成系统全解析
  • 微服务中 本地启动 springboot 无法找到nacos配置 启动报错
  • 第十六章,网络型攻击防范技术
  • Python 常用内置函数详解(十):help()函数——查看对象的帮助信息
  • 【论文阅读27】-TCN–BiLSTM -滑坡预测
  • 从Dockerfile 构建docker镜像——保姆级教程
  • `待办事项css样式
  • electron 结合 react(cra创建的) 创建桌面应用和打包桌面应用