当前位置：首页 > ops >正文

SCAU大数据技术原理期末复习|第10、11章

ops 2025/6/16 8:34:51

仅针对老师提纲中标注了（理解）和（理解并掌握）的部分进行整理

spark

spark是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序

spark生态系统

spark基本概念

一个Application包含多个Job，每个Job包含多个Stage，每个Stage包含多个Task

RDD的使用

1、操作分类

转换类（例如 map filter）行动类（例如 reduce collect）

2、惰性调用

整个转换过程只是记录了转换的轨迹，并不会发生真正的的计算，只有遇到行动操作时，才会发生真正的计算，开始从血缘关系源头开始，进行物理的转换操作。

3、血缘关系

记录DAG中从创建开始，包括所有转换过程和最终行动处理的全环节各个RDD之间的相互依赖关系。通过记录这个血缘关系，可以从头开始恢复生成每个中间RDD。

4、窄依赖

窄依赖表现为一个父RDD的分区对应于一个子RDD的分区或多个父RDD的分区对应于一个子RDD的分区

5、宽依赖

宽依赖表现为存在一个父RDD的一个分区对应于一个子RDD的多个分区

11 流计算与Flink

静态数据与流数据

流数据特征

批量计算和实时计算

流计算的概念

流计算的处理流程

1、数据实时采集

2、数据实时计算

3、实时查询服务

http://www.xdnf.cn/news/14393.html

相关文章：

ansible模块使用实践

UnityDots学习（六）

手动 + 自动双方案组合：Innocise 壁虎吸盘灵活适配多场景无损搬运需求

谷歌浏览器编译windows版本

Vue3相关知识1

STM32 HAL库学习 RNG篇

编译链接实战（32）动态库的本质和原理

循环神经网络及其变体

数据库核心技术深度剖析：事务、索引、锁与SQL优化实战指南（第六节）-----InnoDB引擎

软件设计模式入门

力扣Hot100每日N题（17~18）

Vue学习001-创建 Vue 应用

anaconda安装教程

板凳-------Mysql cookbook学习（十--7）

使用pinia代替vuex处理登录流程

什么是扩展运算符?有什么使用场景?

强化学习怎么入门？

Vue3 跨多个组件方法调用：简洁实用的解决方案

人工智能基础知识笔记十：降维技术

扣子开发平台 Agent 开发教程（一）

Adoquery 转AdoDataSet

LeetCode 1385.两个数组间的距离值

Kafka 可靠性保障：消息确认与事务机制（一）

vue3 +spring boot文件上传

【Go语言-Day 1】扬帆起航：从零到一，精通 Go 语言环境搭建与首个程序

操作系统核心名词解释--期末简答题快速复习

cuda编程笔记（2.5）--简易的应用代码

利用 Python 爬虫获取 Amazon 商品详情：实战指南

HarmonyOS 探秘手记：我在 “鸿蒙星球” 的第一天