当前位置：首页 > web >正文

Spark-Streaming核心编程

web 2025/7/4 13:41:30

1. Kafka数据源的两种API对比

ReceiverAPI：在早期版本中使用，需专门的Executor接收数据再发送给其他Executor计算。由于接收和计算的Executor速度可能不同，当接收速度大于计算速度时，计算节点易出现内存溢出问题，当前版本已不适用。

DirectAPI：由计算的Executor主动消费Kafka数据，速度可自行控制。

2. Kafka 0-10 Direct模式实践

需求：利用SparkStreaming从Kafka读取数据，进行简单计算后打印到控制台。

导入依赖：添加 org.apache.spark:spark - streaming - kafka - 0 - 10_2.12:3.0.0 依赖，为后续代码实现提供支持。

代码编写：创建SparkConf和StreamingContext，设置相关参数。定义Kafka参数，通过KafkaUtils.createDirectStream读取Kafka数据创建DStream，提取数据中的value部分，进行wordCount计算并打印结果，最后启动StreamingContext等待终止。

环境准备与操作流程：开启Kafka集群；使用 kafka - console - producer.sh 启动Kafka生产者并向指定topic发送数据；运行程序处理Kafka生产的数据；通过 kafka - consumer - groups.sh 查看消费进度，可了解数据消费情况。

http://www.xdnf.cn/news/1635.html

相关文章：

全局变量Msg.sender

PC接入deepseek

Anything V4/V5 模型汇总

PostgreSQL性能优化实用技巧‌

C语言教程（十六）： C 语言字符串详解

TCP基础题：音乐播放列表管理系统

React-组件和props

2025五一杯数学建模竞赛思路助攻预定

光影编程师：Threejs Shader 基础全攻略

跟着deepseek学golang--认识golang

《CBOW 词向量转化实战：让自然语言处理 “读懂” 文字背后的含义》

常见的 Spring Boot 注解汇总

LVDS系列9：Xilinx 7系可编程输入延迟(二)

32单片机——外部中断

阿里云99机器总是宕机，实测还是磁盘性能差

儿童语义认知功能磁共振成像研究的元分析

迅为RK3568开发板内核模块实现-编写 Makefile

MongoDB Compass可视化工具

[MERN 项目实战] MERN Multi-Vendor 电商平台开发笔记（v2.0 从 bug 到结构优化的工程记录）

仓库体系结构风格-笔记

PowerBI企业运营分析——全动态帕累托分析

2025年3月AGI技术月评｜技术突破重构数字世界底层逻辑

【AI 加持下的 Python 编程实战 2_10】DIY 拓展：从扫雷小游戏开发再探问题分解与 AI 代码调试能力（中）

git tag使用场景和实践

Excel处理控件Spire.XLS系列教程：Java设置Excel活动工作表或活动单元格

“平价”微智码初尝试

pycharm2024.3.2项目解释器选择问题

Hadoop基础知识

verilog和system verilog常用数据类型以及常量汇总

Netty线上如何做性能调优？