hadoop集群建立
建立Hadoop集群的步骤指南
建立Hadoop集群需要系统规划和多个步骤的配置。以下是详细的建立流程:
一、前期准备
-
硬件需求
-
多台服务器(至少3台,1主2从)
-
每台建议配置:至少4核CPU,8GB内存,100GB硬盘
-
稳定的网络连接(千兆网络推荐)
-
-
软件需求
-
Linux操作系统(推荐CentOS或Ubuntu Server)
-
Java JDK (推荐JDK 8或11)
-
Hadoop软件包(从Apache官网下载)
-
二、环境设置
-
在所有节点上操作
bash
复制
下载
# 创建hadoop用户 sudo useradd -m hadoop sudo passwd hadoop# 安装Java sudo apt-get install openjdk-8-jdk # 或 sudo yum install java-1.8.0-openjdk# 验证Java安装 java -version
-
配置SSH免密登录
bash
复制
下载
# 在主节点生成密钥 ssh-keygen -t rsa# 将公钥复制到所有节点(包括自己) ssh-copy-id hadoop@master ssh-copy-id hadoop@slave1 ssh-copy-id hadoop@slave2
三、Hadoop配置
-
解压并设置环境变量
bash
复制
下载
tar -xzf hadoop-3.x.x.tar.gz mv hadoop-3.x.x /usr/local/hadoop# 编辑~/.bashrc export HADOOP_HOME=/usr/local/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64source ~/.bashrc
-
配置核心文件
-
core-site.xml
xml
复制
下载
运行
<configuration><property><name>fs.defaultFS</name><value>hdfs://master:9000</value></property><property><name>hadoop.tmp.dir</name><value>/usr/local/hadoop/tmp</value></property> </configuration>
-
hdfs-site.xml
xml
复制
下载
运行
<configuration><property><name>dfs.replication</name><value>2</value></property><property><name>dfs.namenode.name.dir</name><value>/usr/local/hadoop/hdfs/namenode</value></property><property><name>dfs.datanode.data.dir</name><value>/usr/local/hadoop/hdfs/datanode</value></property> </configuration>
-
mapred-site.xml
xml
复制
下载
运行
<configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property> </configuration>
-
yarn-site.xml
xml
复制
下载
运行
<configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.resourcemanager.hostname</name><value>master</value></property> </configuration>
-
workers文件 (列出所有从节点)
复制
下载
slave1 slave2
-
四、分发配置到所有节点
bash
复制
下载
scp -r /usr/local/hadoop hadoop@slave1:/usr/local/ scp -r /usr/local/hadoop hadoop@slave2:/usr/local/ scp ~/.bashrc hadoop@slave1:~/ scp ~/.bashrc hadoop@slave2:~/
五、启动集群
-
在主节点格式化HDFS
bash
复制
下载
hdfs namenode -format
-
启动HDFS
bash
复制
下载
start-dfs.sh
-
启动YARN
bash
复制
下载
start-yarn.sh
-
验证集群状态
bash
复制
下载
jps # 查看Java进程 hdfs dfsadmin -report # 查看HDFS状态