当前位置: 首页 > ops >正文

在shell中运行RDD程序

在shell中运行RDD程序

准备工作:启动hdfs集群,打开hadoop100:9870,在wcinput目录下上传一个包含很多个单词的文本文件。

写交互式代码:启动之后在spark-shell中写代码。

 

进入环境:spark-shell --master yarn

逐句写代码:

// 读取文件,得到RDD

    val rdd1 = sc.textFile("hdfs://hadoop100:8020/wcinput/words.txt")

    // 将单词进行切割,得到一个存储全部单词的RDD

    val rdd2= fileRDD.flatMap(line => line.split(" "))

    // 将单词转换为元组对象,key是单词,value是数字1

    val rdd3= wordsRDD.map(word => (word, 1))

    // 将元组的value按照key来分组,对所有的value执行聚合操作(相加)

    val rdd4= wordsWithOneRDD.reduceByKey((a, b) => a + b)

    // 收集RDD的数据并打印输出结果

    rdd4.collect().foreach(println)

http://www.xdnf.cn/news/4528.html

相关文章:

  • 航电系统之网络控制技术篇
  • 罗氏线圈抗干扰特性测试方法研究
  • 卷积神经网络基础(七)
  • 使用Java NIO 实现一个socket通信框架
  • MSTP 实验拓扑配置
  • 生产管理是啥?生产计划该怎么做?
  • 黄金分割法(0.618 法)
  • 机器学习实战:6种数据集划分方法详解与代码实现
  • 微粉助手 1.1.0 | 专为社交电商用户设计的一站式营销工具,集成了群发消息、智能加好友、清理僵尸粉等功能
  • FBRT-YOLO:面向实时航空图像检测的更快更好的YOLO变体解析
  • AcWing 递归实现组合型枚举
  • 性能比拼: Redis Streams vs Pub/Sub
  • 电池全自动生产线:驱动新能源产业升级的核心引擎
  • 华为安全认证好还是数通认证好?
  • Excel表格批量合并工具推荐
  • 每日算法-250507
  • Manus AI突破多语言手写识别的技术壁垒研究报告
  • SpringBoot学习笔记(1)
  • 【信奥数学基础】最小公倍数与不等式证明
  • Docker 容器化部署深度研究与发展趋势
  • 【数据结构】单链表
  • Qt开发经验 --- 避坑指南(6)
  • Android接入国标平台:工业现场级的GB28181移动端接入实践
  • ps信息显示不全
  • 【纯小白博客搭建】Hugo+Github博客部署及主题(stack)美化等界面优化记录
  • 基于STM32、HAL库的ZMOD4410AI1R 气体传感器驱动程序设计
  • qwen2.5vl
  • 考研数据结构之树形查找:二叉排序树、平衡二叉树与红黑树(包含真题解析)
  • 使用 Couchbase Analytics Service 的典型步骤
  • 【面板数据】公开整理-各省刑事案件统计数据集(2011-2023年)