当前位置：首页 > news >正文

Spark，在shell中运行RDD程序

news 2025/7/4 18:41:29

在hdfs中/wcinput中创建一个文件：word2.txt在里面写几个单词

启动hdfs集群

[root@hadoop100 ~]# myhadoop start

[root@hadoop100 ~]# cd /opt/module/spark-yarn/bin

[root@hadoop100 ~]# ./spark-shell

写个1+1测试一下

按住ctrl+D退出

进入环境：spark-shell --master yarn

逐个写代码：

    // 读取文件，得到RDDval rdd1 = sc.textFile("hdfs://hadoop100:8020/wcinput/word2.txt")// 将单词进行切割，得到一个存储全部单词的RDDval rdd2= rdd1.flatMap(line => line.split(" "))// 将单词转换为元组对象，key是单词，value是数字1val rdd3= rdd2.map(word => (word, 1))// 将元组的value按照key来分组，对所有的value执行聚合操作(相加)val rdd4= rdd3.reduceByKey((num1, num2) => num1 + num2)// 收集RDD的数据并打印输出结果rdd4.collect().foreach(println)// 将结果储存在out111中rdd.saveAsTextFile("hdfs://hadoop100:8020/out111")

在根目录下可见out111文件，文件打开后可以看到，word2.txt文件内单词被拆分

RDD的执行过程

http://www.xdnf.cn/news/353629.html

相关文章：

【SQL系列】多表关联更新

手持气象仪：能够实时测量多种气象参数，保数据采集的准确性与实时性

掌握Multi-Agent实践(三)：ReAct Agent集成Bing和Google搜索功能，采用推理与执行交替策略，增强处理复杂任务能力

Spring Boot 框架概述

【计算机视觉】Car-Plate-Detection-OpenCV-TesseractOCR：车牌检测与识别

【css】css统一设置变量

更新 / 安装 Nvidia Driver 驱动 - Ubuntu - 2

数据类型详解（布尔值、整型、浮点型、字符串等）-《Go语言实战指南》

istio in action之Gateway流量入口与安全

分析NVIDIA的股价和业绩暴涨的原因

Zabbix监控 RabbitMQ 指定消息队列名称(pull_alarms )的消费者

富乐德传感技术盘古信息 | 锚定“未来工厂”新坐标，开启传感器制造行业数字化转型新征程

IC解析之TPS92682-Q1(汽车LED灯控制IC)

【C/C++】C语⾔内存函数

[Errno 122] Disk quota exceeded

Linux59 SSH配置前瞻 JumpServer双网卡ping通

金仓数据库永久增量备份技术原理与操作

电商平台如何做好DDoS 攻防战？

物流基础知识-术语 | 医药物流（1）

OpenHarmony平台驱动开发（十），MMC

k8s监控方案实践（二）：集成Alertmanager告警与钉钉Webhook通知

C23 与 MISRA C:2025：嵌入式 C 语言的进化之路

4.3【LLaMA-Factory实战】教育大模型：个性化学习路径生成系统全解析

微服务中本地启动 springboot 无法找到nacos配置启动报错

第十六章，网络型攻击防范技术

Python 常用内置函数详解（十）：help()函数——查看对象的帮助信息

【论文阅读27】-TCN–BiLSTM -滑坡预测

从Dockerfile 构建docker镜像——保姆级教程

`待办事项css样式

electron 结合 react(cra创建的) 创建桌面应用和打包桌面应用