当前位置：首页 > ds >正文

大数据开发环境搭建（Linux + Hadoop + Spark + Flink + Hive + Kafka）

ds 2025/9/5 4:45:27

一、前言

大数据生态系统包含众多组件，初学者常常不知道如何一步步搭建开发环境。本文将以 Linux 系统为基础，带你完成 Hadoop、Spark、Flink、Hive、Kafka 的安装与配置，搭建出一个完整的大数据开发环境，既适合个人学习，也能应用于小规模实验集群。

二、环境准备

1. 操作系统

推荐使用 CentOS 7 / Ubuntu 20.04（稳定，兼容性好）。
关闭防火墙、SELinux，保证节点通信正常。

2. 基础依赖

JDK：推荐 JDK 8（大多数大数据组件与其兼容性最好）。
SSH：用于节点免密登录。
Python（可选）：部分组件（如 Spark）支持 Python 开发。

# 安装 JDK
yum install -y java-1.8.0-openjdk-devel
# 配置环境变量
echo "export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk" >> ~/.bashrc
echo "export PATH=$JAVA_HOME/bin:$PATH" >> ~/.bashrc
source ~/.bashrc

三、Hadoop 搭建

1. 下载与解压

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
tar -zxvf hadoop-3.3.6.tar.gz -C /opt/
mv /opt/hadoop-3.3.6 /opt/hadoop

2. 配置环境变量

echo "export HADOOP_HOME=/opt/hadoop" >> ~/.bashrc
echo "export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH" >> ~/.bashrc
source ~/.bashrc

3. 核心配置（`core-site.xml`、`hdfs-site.xml`、`yarn-site.xml`）

配置 NameNode、DataNode 路径；
设置副本数与资源调度策略。

4. 格式化与启动

hdfs namenode -format
start-dfs.sh
start-yarn.sh

四、Hive 安装

1. 下载与解压

wget https://downloads.apache.org/hive/hive-3.1.3/apache-hive-3.1.3-bin.tar.gz
tar -zxvf apache-hive-3.1.3-bin.tar.gz -C /opt/
mv /opt/apache-hive-3.1.3-bin /opt/hive

2. 配置环境变量

echo "export HIVE_HOME=/opt/hive" >> ~/.bashrc
echo "export PATH=$HIVE_HOME/bin:$PATH" >> ~/.bashrc
source ~/.bashrc

3. 配置元数据库（MySQL）

Hive 默认使用 Derby，不适合多用户，推荐配置 MySQL。
修改 hive-site.xml，设置 JDBC 连接信息。

4. 初始化元数据库

schematool -initSchema -dbType mysql

五、Spark 安装

1. 下载与解压

wget https://downloads.apache.org/spark/spark-3.5.1/spark-3.5.1-bin-hadoop3.tgz
tar -zxvf spark-3.5.1-bin-hadoop3.tgz -C /opt/
mv /opt/spark-3.5.1-bin-hadoop3 /opt/spark

2. 配置环境变量

echo "export SPARK_HOME=/opt/spark" >> ~/.bashrc
echo "export PATH=$SPARK_HOME/bin:$PATH" >> ~/.bashrc
source ~/.bashrc

3. 启动 Spark

$SPARK_HOME/sbin/start-all.sh

六、Flink 安装

1. 下载与解压

wget https://downloads.apache.org/flink/flink-1.19.0/flink-1.19.0-bin-scala_2.12.tgz
tar -zxvf flink-1.19.0-bin-scala_2.12.tgz -C /opt/
mv /opt/flink-1.19.0 /opt/flink

2. 配置环境变量

echo "export FLINK_HOME=/opt/flink" >> ~/.bashrc
echo "export PATH=$FLINK_HOME/bin:$PATH" >> ~/.bashrc
source ~/.bashrc

3. 启动 Flink

$FLINK_HOME/bin/start-cluster.sh

访问 http://localhost:8081 查看 Web UI。

七、Kafka 安装

1. 下载与解压

wget https://downloads.apache.org/kafka/3.7.0/kafka_2.12-3.7.0.tgz
tar -zxvf kafka_2.12-3.7.0.tgz -C /opt/
mv /opt/kafka_2.12-3.7.0 /opt/kafka

2. 启动 Zookeeper 与 Kafka

# 启动 Zookeeper
/opt/kafka/bin/zookeeper-server-start.sh -daemon /opt/kafka/config/zookeeper.properties# 启动 Kafka
/opt/kafka/bin/kafka-server-start.sh -daemon /opt/kafka/config/server.properties

3. 测试 Producer 与 Consumer

# 创建 topic
/opt/kafka/bin/kafka-topics.sh --create --topic test --bootstrap-server localhost:9092# 启动生产者
/opt/kafka/bin/kafka-console-producer.sh --topic test --bootstrap-server localhost:9092# 启动消费者
/opt/kafka/bin/kafka-console-consumer.sh --topic test --from-beginning --bootstrap-server localhost:9092