当前位置: 首页 > web >正文

Spark-Streaming核心编程

1. Kafka数据源的两种API对比

ReceiverAPI:在早期版本中使用,需专门的Executor接收数据再发送给其他Executor计算。由于接收和计算的Executor速度可能不同,当接收速度大于计算速度时,计算节点易出现内存溢出问题,当前版本已不适用。

 DirectAPI:由计算的Executor主动消费Kafka数据,速度可自行控制。

2. Kafka 0-10 Direct模式实践

需求:利用SparkStreaming从Kafka读取数据,进行简单计算后打印到控制台。

导入依赖:添加 org.apache.spark:spark - streaming - kafka - 0 - 10_2.12:3.0.0 依赖,为后续代码实现提供支持。

代码编写:创建SparkConf和StreamingContext,设置相关参数。定义Kafka参数,通过KafkaUtils.createDirectStream读取Kafka数据创建DStream,提取数据中的value部分,进行wordCount计算并打印结果,最后启动StreamingContext等待终止。

环境准备与操作流程:开启Kafka集群;使用 kafka - console - producer.sh 启动Kafka生产者并向指定topic发送数据;运行程序处理Kafka生产的数据;通过 kafka - consumer - groups.sh 查看消费进度,可了解数据消费情况。

http://www.xdnf.cn/news/1635.html

相关文章:

  • 全局变量Msg.sender
  • PC接入deepseek
  • Anything V4/V5 模型汇总
  • PostgreSQL性能优化实用技巧‌
  • C语言教程(十六): C 语言字符串详解
  • TCP基础题:音乐播放列表管理系统
  • React-组件和props
  • 2025五一杯数学建模竞赛思路助攻预定
  • 光影编程师:Threejs Shader 基础全攻略
  • 跟着deepseek学golang--认识golang
  • 《CBOW 词向量转化实战:让自然语言处理 “读懂” 文字背后的含义》
  • 常见的 Spring Boot 注解汇总
  • LVDS系列9:Xilinx 7系可编程输入延迟(二)
  • 32单片机——外部中断
  • 阿里云99机器总是宕机,实测还是磁盘性能差
  • 儿童语义认知功能磁共振成像研究的元分析
  • 迅为RK3568开发板内核模块实现-编写 Makefile
  • MongoDB Compass可视化工具
  • [MERN 项目实战] MERN Multi-Vendor 电商平台开发笔记(v2.0 从 bug 到结构优化的工程记录)
  • 仓库体系结构风格-笔记
  • PowerBI企业运营分析——全动态帕累托分析
  • 2025年3月AGI技术月评|技术突破重构数字世界底层逻辑
  • 【AI 加持下的 Python 编程实战 2_10】DIY 拓展:从扫雷小游戏开发再探问题分解与 AI 代码调试能力(中)
  • git tag使用场景和实践
  • Excel处理控件Spire.XLS系列教程:Java设置Excel活动工作表或活动单元格
  • “平价”微智码初尝试
  • pycharm2024.3.2项目解释器选择问题
  • Hadoop基础知识
  • verilog和system verilog常用数据类型以及常量汇总
  • Netty线上如何做性能调优?