当前位置：首页 > web >正文

【无标题】如何在sheel中运行Spark

web 2025/7/2 6:13:10

启动hdfs集群，打开hadoop100:9870，在wcinput目录下上传一个包含很多个单词的文本文件。

启动之后在spark-shell中写代码。

// 读取文件，得到RDD

val rdd1 = sc.textFile("hdfs://hadoop100:8020/wcinput/words.txt")

// 将单词进行切割，得到一个存储全部单词的RDD

val rdd2= fileRDD.flatMap(line => line.split(" "))

// 将单词转换为元组对象，key是单词，value是数字1

val rdd3= wordsRDD.map(word => (word, 1))

// 将元组的value按照key来分组，对所有的value执行聚合操作(相加)

val rdd4= wordsWithOneRDD.reduceByKey((a, b) => a + b)

// 收集RDD的数据并打印输出结果

http://www.xdnf.cn/news/4516.html

相关文章：

基于Django框架开发的企业级IT资产管理系统

Topic和Partition的关系是什么？为什么需要分区？（Topic是逻辑分类，Partition是物理分片；提升并行度和扩展性）

【信息系统项目管理师-论文真题】2005下半年论文详解（包括解题思路和写作要点）

mint系统详解详细解释

开源数学推理模型DeepSeek-Prover-V2：88.9%通过率+超长推理链

数造科技携 DataBuilder 亮相安徽科交会，展现“DataOps +AI”双引擎魅力

机器学习之嵌入(Embeddings)：从理论到实践

LangChain第二讲:不设置环境变量也能调用LLM大模型吗?(更简单地调用LLM)

LabVIEW表面粗糙度测量及算法解析

Python cv2视频处理基础：从入门到实战

我如何在ubuntu截图和屏幕录制，有什么好用的免费的软件吗？

C++ 基础复习

蓝牙L2CAP协议概述

微机控制电液伺服拉扭疲劳试验系统

004 Linux基本指令

C语言| 递归求两个数的最大公约数

17.Three.js 光照系统之《LightProbe》详解指南（含 Vue 3示例）

准确--Notepad++ 实用的插件介绍

【论文阅读】HunyuanVideo: A Systematic Framework For Large Video Generative Models

Linux系统安装指南

vue2中的组件注册

Landsat WRS介绍及 Polygon定位WRS算法

WPF MVVM入门系列教程（六、ViewModel案例演示）

[Windows] 蓝山看图王 1.0.3.21021

JGL021垃圾渗滤液小试实验装置

三、大模型原理：图文解析MoE原理

NGINX `ngx_http_charset_module` 字符集声明与编码转换

【CSS】Grid 的 auto-fill 和 auto-fit 内容自适应

goland无法debug

做PPT的感想