当前位置：首页 > backend >正文

什么是SparkONYarn模式

backend 2025/8/27 8:47:43

1. 什么是 Spark on YARN？

Spark on YARN 是 Apache Spark 的一种部署模式，允许 Spark 应用程序在 Hadoop YARN 集群上运行，充分利用 YARN 的资源管理和调度能力。这种模式将 Spark 与 Hadoop 生态深度集成，使企业能够在同一集群上统一管理批处理、流处理、交互式查询等多种工作负载。

2. 核心优势

资源统一管理
- 与 Hadoop 共享集群资源，避免资源孤岛（如 MapReduce、Hive、Spark 可共存）。
- YARN 根据工作负载动态分配资源，提高集群利用率。
简化运维
- 依托 YARN 的高可用性（HA）和资源隔离机制，降低运维复杂度。
- 支持与现有 Hadoop 集群无缝集成，无需额外部署集群管理器。
灵活的资源分配
- 支持 内存 / CPU 细粒度控制，通过 spark-submit 参数调整资源分配。
- 可配置多队列（如生产队列、测试队列），实现资源隔离。
丰富的调度策略
- 继承 YARN 的调度器（容量调度器、公平调度器），满足不同业务需求。

3. 架构组件

Spark on YARN 的架构涉及三个核心组件：

YARN 组件
- ResourceManager (RM)：全局资源管理器，负责分配集群资源。
- NodeManager (NM)：每个节点的代理，管理容器（Container）生命周期。
- 调度器：如容量调度器（Capacity Scheduler）或公平调度器（Fair Scheduler）。
Spark 组件
- Driver：应用程序的主进程，负责调度任务。
- Executor：运行在容器中的工作进程，执行具体计算任务。
通信流程
- Spark 应用通过 spark-submit 向 YARN RM 提交请求。
- RM 分配 Container 并启动 ApplicationMaster（Spark Driver）。
- Driver 向 RM 注册并请求资源，然后与 NM 通信启动 Executor。

4. 部署模式

Spark on YARN 支持两种部署模式：

Client 模式
- Driver 运行在客户端：
  - 适用于交互式应用（如 Spark Shell、Jupyter Notebook）。
  - Driver 在提交作业的客户端进程中运行，直接接收任务输出。
- 提交命令：
  bash
```
spark-submit \--master yarn \--deploy-mode client \--num-executors 10 \--executor-memory 4g \my-app.jar
```
Cluster 模式
- Driver 运行在集群中：
  - 适用于生产环境，避免客户端与集群长时间连接。
  - Driver 作为 YARN 中的一个 ApplicationMaster 运行，与客户端分离。
- 提交命令：
  bash
```
spark-submit \--master yarn \--deploy-mode cluster \--num-executors 10 \--executor-memory 4g \my-app.jar
```

5. 资源配置参数

通过 spark-submit 或 spark-defaults.conf 配置：

参数	说明
`--num-executors`	启动的 Executor 数量（默认 2）。
`--executor-memory`	每个 Executor 的内存大小（如 4g）。
`--executor-cores`	每个 Executor 的 CPU 核心数（默认 1）。
`--driver-memory`	Driver 的内存大小（默认 1g）。
`--queue`	指定 YARN 队列名称（如 `default`、`prod`）。
`--conf spark.yarn.maxAppAttempts`	应用最大重试次数（默认 2）。
`--conf spark.yarn.executor.memoryOverhead`	每个 Executor 的堆外内存（默认 executorMemory * 0.10）。

6. 典型应用场景

混合工作负载集群
- 在同一 Hadoop 集群上同时运行 Spark、MapReduce、Hive 等作业。
企业级数据平台
- 利用 YARN 的资源隔离特性，为不同部门分配专用队列（如财务、研发）。
大规模数据处理
- 处理 PB 级数据，通过 YARN 动态调整资源应对峰值负载。

7. 监控与故障排查

YARN Web UI
- http://resourcemanager:8088：查看所有应用状态、资源使用情况。

Spark Web UI

Driver 运行时的 Web UI（默认端口 4040）：

plaintext

http://driver-node:4040  # Client 模式
http://application-master-node:4040  # Cluster 模式

日志查看

YARN 应用日志：

bash

yarn logs -applicationId <application_id>

8. 优缺点

优点	缺点
与 Hadoop 生态无缝集成	依赖 YARN，增加部署复杂度
资源利用率高	任务启动延迟较高（需等待 Container 分配）
支持高可用性	需深入理解 YARN 配置和调优
多租户资源隔离	对网络和磁盘 I/O 敏感

9. 配置步骤

确保 YARN 正常运行
- 启动 HDFS 和 YARN：
  bash
```
start-dfs.sh
start-yarn.sh
```

配置 Spark

编辑 $SPARK_HOME/conf/spark-env.sh：

bash

export HADOOP_CONF_DIR=/path/to/hadoop/etc/hadoop  # Hadoop 配置目录

提交作业

bash

spark-submit \--master yarn \--deploy-mode cluster \--class org.apache.spark.examples.SparkPi \$SPARK_HOME/examples/jars/spark-examples_*.jar \100

查看全文

http://www.xdnf.cn/news/5962.html

ai agent(智能体)开发 python高级应用1:Crawl4AI 如何通过ollama 给本地大模型插上网络翅膀

HarmonyOS 【诗韵悠然】AI古诗词赏析APP开发实战从零到一系列（二、项目准备与后台服务搭建）

Linux操作系统之进程（一）：进程属性与进程创建

算法第十七天｜654. 最大二叉树、617.合并二叉树、700.二叉搜索树中的搜索、98.验证二叉搜索树

Java-集合

React中的状态管理Dva总结

改变应用的安装目录

texlive 与 Texmaker 安装

在Babylon.js中实现完美截图：包含Canvas和HTML覆盖层

[论文阅读]ControlNET: A Firewall for RAG-based LLM System

面试篇：MySQL

c# 数据结构树篇入门树与二叉树的一切

Glowroot安装使用第一期

从零开始了解数据采集（二十七）——什么IIOT平台

导出导入Excel文件(详解-基于EasyExcel)

Python操作Excel文件全攻略：xls/xlsx处理从入门到精通

【数据结构】栈

深度学习---获取模型中间层输出的意义

VSCode设置SSH免密登录

大型系统开发底座:ivX 研发基座技术架构与协作机制剖析

代码随想录算法训练营第三十九天

Java接口性能优化：零成本实现数据库状态到中文的极致转换

人脸识别备案：筑牢人脸信息 “安全墙”

多边形,矩形,长方体设置

漏桶算法（Leaky Bucket）和令牌桶算法（Token Bucket）的详细介绍

力扣算法---总结篇

1. 什么是 Spark on YARN？

2. 核心优势

3. 架构组件

4. 部署模式

5. 资源配置参数

6. 典型应用场景

7. 监控与故障排查

8. 优缺点

9. 配置步骤

相关文章：