当前位置: 首页 > news >正文

Spark-Streaming简介和核心编程

Spark-Streaming简介

      概述:用于流式数据处理,支持Kafka、Flume等多种数据输入源,可使用Spark原语运算,结果能保存到HDFS、数据库等。它以DStream(离散化流)为抽象表示,是RDD在实时场景的封装,具有易用、容错、易整合到Spark体系的特点。

       架构:1.5版本前通过设置静态参数限制Receiver数据接收速率,1.5版本起引入背压机制,依据JobScheduler反馈动态调整Receiver数据接收率 ,可通过“spark.streaming.backpressure.enabled”控制是否启用。

DStream实操-WordCount案例:

      添加相关依赖后,编写代码从指定端口读取数据,经flatMap、map、reduceByKey等操作统计单词出现次数,启动netcat发送数据后即可运行。

案例代码:

 

 

 

 

 Spark-Streaming核心编程

DStream创建 - RDD队列:

      使用ssc.queueStream(queueOfRDDs)创建DStream,计算wordcount

 

案例代码

 

DStream创建 - 自定义数据源:

     自定义数据源需继承Receiver并实现onStart、onStop方法。案例中自定义数据源监控指定端口获取内容,在使用时通过ssc.receiverStream引入,进而进行数据处理。

 

 

 

 

 

 

http://www.xdnf.cn/news/79057.html

相关文章:

  • 发布一个npm包,更新包,删除包
  • Python基础知识语法归纳总结(数据类型-2)
  • 开源QML控件:进度条滑动控件(含源码下载链接)
  • 【Ansible】批量管理 Windows自动化运维
  • GTS-400 系列运动控制器板(六)----修改编码器计数方向
  • UML 状态图:以共享汽车系统状态图为例
  • 全面介绍AVFilter 的添加和使用
  • 基于cubeMX的hal库STM32实现硬件IIC通信控制OLED屏
  • 实战交易策略 篇十七:翻倍黑马交易策略
  • Spring Data详解:简化数据访问层的开发实践
  • Socket
  • 【数据可视化-21】水质安全数据可视化:探索化学物质与水质安全的关联
  • python 脚本引用django中的数据库model
  • UnitTest框架
  • c语言修炼秘籍 - - 禁(进)忌(阶)秘(技)术(巧)【第七式】程序的编译
  • ARM Cortex-M (STM32)如何调试HardFault
  • vite详细打包配置,包含性能优化、资源处理...
  • 突破AI检测边界:对抗技术与学术伦理的终极博弈
  • 【HarmonyOS】ArKUI框架
  • 诠视科技MR眼镜如何使用头瞄点和UGUI交互
  • Filename too long 错误
  • XML内容解析成实体类
  • Java 中 XML 处理工具类详解
  • WHAT - 静态资源缓存穿透
  • 【音视频】音频解码实战
  • Ubuntu-Linux中vi / vim编辑文件,保存并退出
  • Cline Roo Code
  • 广告效果分析-广告点击率mysql+pandas
  • C++ linux打包运行方案(cmake)
  • vue浅试(1)