当前位置: 首页 > ops >正文

SCAU大数据技术原理期末复习|第10、11章

仅针对老师提纲中标注了(理解)和(理解并掌握)的部分进行整理

spark

spark是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序

spark生态系统

spark基本概念

一个Application包含多个Job,每个Job包含多个Stage,每个Stage包含多个Task

RDD的使用

1、操作分类

转换类(例如 map filter) 行动类(例如 reduce collect)

2、惰性调用

整个转换过程只是记录了转换的轨迹,并不会发生真正的的计算,只有遇到行动操作时,才会发生真正的计算,开始从血缘关系源头开始,进行物理的转换操作。

3、血缘关系

记录DAG中从创建开始,包括所有转换过程和最终行动处理的全环节各个RDD之间的相互依赖关系。通过记录这个血缘关系,可以从头开始恢复生成每个中间RDD。

4、窄依赖

窄依赖表现为一个父RDD的分区对应于一个子RDD的分区或多个父RDD的分区对应于一个子RDD的分区

5、宽依赖

宽依赖表现为存在一个父RDD的一个分区对应于一个子RDD的多个分区

11 流计算与Flink

静态数据与流数据

流数据特征

批量计算和实时计算

流计算的概念

流计算的处理流程

1、数据实时采集

2、数据实时计算

3、实时查询服务

http://www.xdnf.cn/news/14393.html

相关文章:

  • ansible模块使用实践
  • UnityDots学习(六)
  • 手动 + 自动双方案组合:Innocise 壁虎吸盘灵活适配多场景无损搬运需求
  • 谷歌浏览器编译windows版本
  • Vue3相关知识1
  • STM32 HAL库学习 RNG篇
  • 编译链接实战(32)动态库的本质和原理
  • 循环神经网络及其变体
  • 数据库核心技术深度剖析:事务、索引、锁与SQL优化实战指南(第六节)-----InnoDB引擎
  • 软件设计模式入门
  • 力扣Hot100每日N题(17~18)
  • Vue学习001-创建 Vue 应用
  • anaconda安装教程
  • 板凳-------Mysql cookbook学习 (十--7)
  • 使用pinia代替vuex处理登录流程
  • 什么是扩展运算符?有什么使用场景?
  • 强化学习怎么入门?
  • Vue3 跨多个组件方法调用:简洁实用的解决方案
  • 人工智能基础知识笔记十:降维技术
  • cache的学习
  • 扣子开发平台 Agent 开发教程(一)
  • Adoquery 转AdoDataSet
  • LeetCode 1385.两个数组间的距离值
  • Kafka 可靠性保障:消息确认与事务机制(一)
  • vue3 +spring boot文件上传
  • 【Go语言-Day 1】扬帆起航:从零到一,精通 Go 语言环境搭建与首个程序
  • 操作系统核心名词解释--期末简答题快速复习
  • cuda编程笔记(2.5)--简易的应用代码
  • 利用 Python 爬虫获取 Amazon 商品详情:实战指南
  • HarmonyOS 探秘手记:我在 “鸿蒙星球” 的第一天