当前位置: 首页 > java >正文

搭建spark yarn 模式的集群

搭建Spark YARN模式集群步骤

1. 环境准备

系统:采用Linux系统(如Ubuntu、CentOS ),借助ntp实现节点间时间同步,关闭防火墙及SELinux。

Java:安装JDK 8及以上版本,配置JAVA_HOME环境变量。

Hadoop:部署包含HDFS和YARN的Hadoop集群,配置HADOOP_HOME和PATH环境变量。

2. 安装Spark

下载:从Spark官网下载适配Hadoop版本的二进制包,解压至各节点。

环境变量配置:在~/.bashrc中添加 export SPARK_HOME=/path/to/spark 和 export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin  ,并执行 source ~/.bashrc 刷新配置。

3. 配置Spark on YARN

文件修改:在 $SPARK_HOME/conf 目录下,将spark - env.sh.template复制为spark - env.sh ,slaves.template复制为slaves 。在spark - env.sh中添加 export HADOOP_CONF_DIR=/path/to/hadoop/conf 和 export YARN_CONF_DIR=/path/to/hadoop/conf  (指向Hadoop配置目录);在slaves文件中按每行一个的格式列出所有Worker节点的主机名或IP 。

配置分发:利用scp或rsync等工具,将Spark目录及配置文件复制到所有节点。

4. 启动集群

启动Hadoop:依次执行 start - dfs.sh 启动HDFS , start - yarn.sh 启动YARN。

启动Spark Worker:在Master节点执行 start - slaves.sh  ,通过访问YARN界面(默认端口8088 )查看节点状态。

5. 验证任务

执行 spark - submit --master yarn --class org.apache.spark.examples.SparkPi $SPARK_HOME/examples/jars/spark - examples*.jar 10 提交示例任务测试,可通过YARN界面或相关命令查看任务日志。

注意事项

通过 --executor - memory 和 --executor - cores 参数调整任务资源;若需实现高可用(HA) ,需配置ZooKeeper和多Master节点。

http://www.xdnf.cn/news/4142.html

相关文章:

  • mybatis 的多表查询
  • Nacos源码—4.Nacos集群高可用分析四
  • 【Linux网络】应用层协议HTTP
  • Ubuntu18.04搭建samda服务器
  • ORACLE EBS 12.1 启用https 简单策略
  • 谷歌在即将举行的I/O大会之前,意外泄露了其全新设计语言“Material 3 Expressive”的细节
  • 如何通过外网访问内网?对比5个简单的局域网让互联网连接方案
  • 单应性估计
  • 《深入探索位操作符:Python、Java与C语言的实现与应用》
  • UE5 渲染思路笔记(角色)
  • Linux 磁盘初始化与扩容操作手册
  • nnUNet V2修改网络——暴力替换网络为Swin-Unet
  • 爬虫技术-利用Python和Selenium批量下载动态渲染网页中的标准文本文件
  • Java大师成长计划之第13天:Java中的响应式编程
  • 01硬件原理图
  • HTTP请求与前端资源未优化的系统性风险与高性能优化方案
  • Win11/Win10无法保存ip设置提示请检查一个或多个设置并重试怎么办?
  • K8s 资源分类
  • B站pwn教程笔记-6
  • 利用 Kali Linux 进行信息收集和枚举
  • 【AI论文】FormalMATH:大型语言模型形式化数学推理能力基准测试
  • 【计网】ICMP、IP、Ethernet PDU之间的封装关系
  • 如何通过代理 IP 实现异地直播推流
  • uniapp app 端获取陀螺仪数据的实现攻略
  • Apache Doris与StarRocks对比
  • 关于论文中插入公式但是公式相对于段落的位置偏上应该如何调整备份
  • netty单线程并发量评估对比tomcat
  • HTML8:媒体元素
  • tinyrenderer笔记(透视矫正)
  • LearnOpenGL---绘制三角形