当前位置: 首页 > news >正文

RDD实现单词计数

Scala(Spark Shell)方法

如果你在 spark-shell(Scala 环境)中运行:

1. 启动 Spark Shell

spark-shell

(确保 Spark 已安装,PATH 配置正确)

2. 执行单词统计

// 1. 读取文件(确保路径正确!)
val lines = sc.textFile("file:///home/xdt/桌面/data.txt")// 2. 拆分单词 + 统计
val wordCounts1 = lines.flatMap(line => line.split(" "))  // 按空格分割
val wordCounts2 = wordCounts1.map(word => (word, 1))           // 每个单词计数 1
val wordCounts3 = wordCounts2.reduceByKey(_ + _)               // 相同单词累加// 3. 显示结果(前20个)
wordCounts3.take(20).foreach(println)// 4. 保存结果
wordCounts3.saveAsTextFile("file:///home/xdt/桌面/wordcount_output")

3. 检查输出

  • 控制台:会打印前 20 个单词的统计结果。

  • 文件:结果保存在 ~/桌面/wordcount_output/part-00000

注意路径写法,要写自己电脑上的路径。

上面是文件来源于本地的情况,如果文件位于HDFS里,要先把HDFS启动起来。

印象里好像是start-all.sh

http://www.xdnf.cn/news/346933.html

相关文章:

  • mybatis-plus-join-boot-starter依赖解决 Join 联表查询
  • Linux复习笔记(二) 网络服务配置(samba /DNS)
  • DeepSeek+Kimi实战:PPT制作教程
  • 多智能体学习CAMEL-调用api
  • 阀门产业发展方向报告(石油化工阀门应用技术交流大会)
  • Linux 常用命令 - tftp【简单文件传输协议】
  • 超大规模SoC后仿真流程与优化
  • python 接收c++的.so传的jsoncpp字符串
  • springBoot2集成mybatis (手敲学习版)java入门友好
  • 网络原理初识
  • 海外版“咸鱼”——Vinted跨境店铺防封攻略
  • DeepSeek 赋能法律行业:从文书撰写到风险预警的智能实践
  • window 显示驱动开发-处理内存段(一)
  • mysql的访问IP被禁 locked because of many connection errors
  • vue-grid-layout实现拖拽修改工作台布局
  • lumpy:基因组结构变异SV的检测
  • C++代码随想录刷题知识分享-----数组交集—LeetCode 349
  • OpenStack Yoga版安装笔记(26)实例元数据笔记
  • docker mac m1 部署 doris
  • VR制作软件用途(VR制作软件概述)
  • 如何阅读、学习 Git 核心源代码 ?
  • Vue知识框架
  • 为什么用Maple教授微分方程
  • Oracle EBS AP发票被预付款核算创建会计科目时间超长
  • 1688代采系统:技术架构与应用实践
  • mac运行java文件提示 错误: 缺少 JavaFX 运行时组件, 需要使用该组件来运行此应用程序
  • nginx 配置后端健康检查模块
  • AMO数据集:解决运动模仿偏差的超灵巧人形机器人全身控制混合数据集。
  • 【使用switch结构输出季节】2021-11-23
  • bootstrap入门