当前位置: 首页 > backend >正文

Apache Spark 基础知识总结及应用示例

目录

1、Spark编程模型

1.1 术语定义

1.2 模型组成

1.2.1 Driver部分

1.2.2 Executor部分

1.2.2.1 原生数据

1.2.2.2 RDD

1.2.2.3 共享变量

1.2.3 内部逻辑概念 

1.2.3.1 job

1.2.3.2 stage

1.2.3.3 task

2、RDD

2.1 术语定义

2.2 RDD概念

2.2.1 RDD的特点

2.2.2 RDD基础数据类型

2.2.3 例子:控制台日志挖掘

2.3 转换与操作

2.3.1 转换

2.3.2 操作

2.4 依赖类型

2.5 RDD缓存

3、RDD, DF, DS的关系和区别

1)RDD

优点

缺点

2)DataFrame

3)DataSet

三者之间的联系和区别

4 、Spark Streaming介绍

4.1Flink和Saprk的对比

4.2对于 Inner-Join 而言,加水印是可选的, Outer-Join 是必须的

5、RDD动手实战

5.1 上传测试数据

5.2 转换与操作

5.2.1 并行化集合例子演示

5.2.2 Shuffle操作例子演示

5.2.3 搜狗日志查询例子演示

6、学习总结


1、Spark编程模型

1.1 术语定义

应用程序(Application): 基于Spark的用户程序,包含了一个Driver Program 和集群中多个的Executor;

驱动程序(Driver Program):运行Application的main()函数并且创建SparkContext,通常用SparkContext代表Driver Program;

执行单元(Executor): 是为某Application运行在Worker Node上的一个进程,该进程负责运行Task,并且负责将数据存在内存或者磁盘上,每个Application都有各自独立的Executors;

集群管理程序(Cluster Manager): 在集群上获取资源的外部服务(例如:Standalone、Mesos或Yarn);

http://www.xdnf.cn/news/11637.html

相关文章:

  • 顺序程序设计
  • js aes加密 md5摘要 base64编码 ras加密
  • 视频编码fmpeg 常用命令汇总
  • python创意编程作品集,python创意小作品代码
  • 巧用Superset大数据分析平台搞定各类图表
  • 电子邮箱:连接你我,申请注册全攻略解析
  • 渗透测试工程师面试题大全(164道)
  • 新手站长个人经验谈几点SEO优化技巧
  • 宿舍|学生宿舍管理小程序|基于微信小程序的学生宿舍管理系统设计与实现(源码+数据库+文档)
  • 210、基于STM32单片机无线LORA通信多功能电能表电压电流功率用电量等多参数电能表上位机显示设计
  • 第三方支付平台的优缺点分别是什么?
  • 2018年四大爬虫代理IP提供商对比
  • marginRight 不起作用解决方法
  • “时间的朋友”2017跨年演讲全回顾
  • 文件无法删除:windows下文件名太长无法删除的问题 / 无法删除目录层次太深、文件名或者扩展名太长的问题
  • python贪吃蛇最简单代码,简单代码编程 贪吃蛇
  • 使用MSXML2解析XML文件
  • 2024年PHP从基础到高级详细教程(完整版)_php高级教程(1),2024年最新GitHub标星1w的Golang架构师必备技能
  • 5个常见运维场景,用这几个Python脚本就够了!
  • Source Insight(以下简称SI)是世界上最好的编辑器
  • Google Talk突袭腾讯、MSN
  • MeeGo移动应用程序开发入门
  • 零知识玩转AVH(7)—— 门槛任务(2)所遇错误及解决(1)
  • HTML5移动端手机网站开发流程
  • 什么是等保三级?等保三级的认证流程有哪些?
  • 利用这些“大模型部署工具”轻松部署属于你自己的AIGC大模型吧!
  • 国内外自动驾驶OS盘点
  • python 米家_在S60 3rd Edition 上的Python for S60 简介
  • GBK ansi ascii
  • 信用评分之二--信用评分中的评分卡中的A卡、B卡和C卡