当前位置：首页 > ai >正文

搭建speak yarn集群：从零开始的详细指南

ai 2025/7/1 23:36:49

在大数据处理领域，Apache Spark 是一个高性能的分布式计算框架，而 YARN（Yet Another Resource Negotiator）是 Hadoop 的资源管理器。将 Spark 集成到 YARN 中，不仅可以充分利用 Hadoop 的资源管理能力，还能实现高效的计算任务调度。本文将详细介绍如何搭建 Spark on YARN 集群，包括环境准备、安装步骤、配置方法以及测试验证

一、环境准备

在开始搭建集群之前，确保你的系统环境满足以下要求：

操作系统：推荐使用 CentOS 或 Ubuntu 等 Linux 发行版。
Java 环境：确保安装了 JDK 1.8 或以上版本。
网络配置：确保集群中的所有节点能够相互通信，建议配置无密码 SSH 登录。

二、安装 Hadoop

1.下载 Hadoop：从 Apache Hadoop 官方网站下载最新版本的 Hadoop。

2.解压并安装：将下载的 Hadoop 压缩包解压到指定目录，例如 /opt/hadoop。

3.配置环境变量：编辑 /etc/profile 文件，添加以下内容：

export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

然后运行 source /etc/profile 使环境变量生效。

4.配置 Hadoop：编辑 etc/hadoop/core-site.xml 和 etc/hadoop/hdfs-site.xml 文件，配置 HDFS 的相关参数。例如：

<property>
<name>fs.defaultFS</name>
<value>hdfs://namenode:8020</value>
</property>

配置完成后，启动 HDFS 服务：

start-dfs.sh

三、安装 Spark

下载 Spark：从 Apache Spark 官方网站下载与你的 Hadoop 版本兼容的 Spark。
解压并安装：将下载的 Spark 压缩包解压到指定目录，例如 /opt/spark。
配置环境变量：编辑 /etc/profile 文件，添加以下内容：

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

然后运行 source /etc/profile 使环境变量生效。

四、配置 YARN

1.编辑 YARN 配置文件：编辑 etc/hadoop/yarn-site.xml 文件，添加以下内容：

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>

2.配置 Spark 以使用 YARN：编辑 Spark 的 conf/spark-defaults.conf 文件，添加以下内容：

spark.master yarn
spark.submit.deployMode cluster

此外，还需要在 conf/spark-env.sh 文件中设置以下环境变量：

export HADOOP_CONF_DIR=/opt/hadoop/etc/hadoop
export YARN_CONF_DIR=/opt/hadoop/etc/hadoop

五、启动集群

1.启动 YARN 服务：运行以下命令启动 YARN：

start-yarn.sh

2. 检查服务状态：使用以下命令检查 YARN 服务是否正常运行：

jps

如果看到 ResourceManager 和 NodeManager 进程，则说明 YARN 服务已成功启动。

六、测试集群

为了验证 Spark on YARN 集群是否正常工作，可以提交一个简单的 Spark 作业进行测试。例如，计算 π 的值：

spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster /path/to/examples.jar 10

如果作业成功运行并返回结果，则说明集群搭建成功。

七、总结

通过本文的步骤，您已经成功搭建了一个 Spark on YARN 集群。在实际使用中，您还可以根据需求进一步优化配置，例如调整资源分配策略或优化任务调度参数。希望本文能帮助您更好地理解和使用这一强大的大数据处理平台。

如果您在搭建过程中遇到任何问题，欢迎留言交流。

http://www.xdnf.cn/news/2634.html

相关文章：

关于健身房管理系统前后端软件开发主要功能需求分析

深入理解网络原理：TCP协议详解

MCP Servers玩玩WebUI自动化

如何在idea 中写spark程序

UARA串口开发基础

Dify+DeepSeek实战教程！企业级 AI 文档库本地化部署，数据安全与智能检索我都要

OpenResty技术深度解析：原理、应用与生态对比-优雅草卓伊凡

基于 BERT 微调一个意图识别（Intent Classification）模型

LinuxAgent开源程序是一款智能运维助手，通过接入 DeepSeek API 实现对 Linux 终端的自然语言控制，帮助用户更高效地进行系统运维工作

astrbot_plugin_composting_bucket开源程序是一个用于降低AstrBot的deepseek api调用费用的插件

AI大模型：（二）2.4 微调自己的模型

蒋新松：中国机器人之父

解构编程语言的基因密码：论数据类型如何被语言系统定义与重塑

达梦数据库官方迁移工具SQLark：支持Oracle/MySQL/PostgreSQL迁移至达梦数据库！

使用exdp 备份数据库

Scratch——第20课辗转相除法/绳子算法

GitLab CVE-2024-12444 安全漏洞解决方案

劳动节ppt免费下载,劳动节ppt模板，劳动节课件

配置电子邮件服务

LabVIEW开发之困境中逼出成长力

MCP之二_服务器与客户端实现

抱佛脚之学SSMAOP

【AI News | 20250428】每日AI进展

国内比较好用的代理IP测评

C++——哈希表

Debian10系统安装，磁盘分区和扩容

redis未授权访问漏洞学习

38、Python协程与任务调度高级技巧：从异步IO到分布式实践

《Windows系统Java环境安装指南：从JDK17下载到环境变量配置》

第十一节：性能优化高频题-响应式数据深度监听问题