当前位置：首页 > news >正文

Spark-Streaming简介及核心编程

news 2025/8/18 23:39:52

一、核心概念：

1.Spark-Streaming 是流式数据处理框架，基于 **DStream（离散化流）** 抽象，将实时数据划分为多个时间区间的 RDD 序列。

DStream 本质是RDD 序列，每个时间区间数据对应一个 RDD。

2.特点：

易用性：支持 Java、Python、Scala 等语言，编程方式类似离线处理。

容错性：无需额外配置即可恢复丢失数据。

易整合性：可与 Spark 批处理结合，支持离线与实时处理统一代码。

3.架构与机制：

背压机制：Spark 1.5 + 引入，通过spark.streaming.backpressure.enabled控制（默认false），根据作业执行情况动态调整数据接收速率，替代静态参数spark.streaming.receiver.maxRate。

实操案例：

WordCount 案例：通过socketTextStream读取 TCP 端口（如 9999）数据，经flatMap、map、reduceByKey等操作统计单词计数，时间间隔设置为3 秒

二、Spark-Streaming 核心编程

1.DStream 创建方式：

RDD 队列：通过ssc.queueStream(queueOfRDDs)创建，案例中使用队列循环添加 RDD（含 1-300 的整数），时间间隔4 秒，每次添加后线程休眠2000 毫秒。

自定义数据源：继承Receiver类，实现onStart（启动线程接收数据）和onStop方法，案例中监控端口 9999，时间间隔5 秒，通过receiverStream获取数据。

关键实现：

自定义CustomerReceiver类通过 Socket 读取指定端口数据，使用store(input)存储数据，并在连接中断时调用restart("restart")重启

查看全文

http://www.xdnf.cn/news/84889.html

详解Windows（六）——文件系统

电脑安装adb并且连接华为手机mate60pro后查看设备

深入探索RAG：用LlamaIndex为大语言模型扩展知识，实现智能检索增强生成

Linux：线程基础（虚拟地址，分页）

实现鼠标拖拽图片效果

驱动开发硬核特训 · Day 17：深入掌握中断机制与驱动开发中的应用实战

或者某些 M 理论、Loop Quantum Gravity 的空背景设想

【Java面试笔记：基础】8.对比Vector、ArrayList、LinkedList有何区别？

L2-1、打造稳定可控的 AI 输出 —— Prompt 模板与格式控制

局域网内，将linux（Ubuntu）的硬盘映射成Windows上，像本地磁盘一样使用

Lua 第8部分补充知识

ProxySQL 读写分离规则配置指南

exception：com.alibaba.nacos.api.exception.NacosException: user not found! 解决方法

解决Python与Java交互乱码问题：从编码角度优化数据流

云原生 - Service Mesh

【Linux运维涉及的基础命令与排查方法大全】

位运算练习：起床困难综合征（贪心，位运算）（算法竞赛进阶指南学习笔记）

2025-04-22| Docker: --privileged参数详解

【源码】【Java并发】【ThreadLocal】适合中学者体质的ThreadLocal源码阅读

黑阈免激活版：智能管理后台，优化手机性能

vscode flutter 插件, vscode运行安卓项目，.gradle 路径配置

刷刷刷刷刷sql题

Oracle在ERP市场击败SAP

JVM考古现场（二十四）：逆熵者·时间晶体的永恒之战

PHP通讯录网站源码无需sql数据库

Vue2-指令语法

相关文章：