当前位置: 首页 > news >正文

搭建大数据学习的平台

一、基础环境准备

1. 硬件配置
  • 物理机:建议 16GB 内存以上,500GB 硬盘,多核 CPU
  • 虚拟机:至少 3 台(1 主 2 从),每台 4GB 内存,50GB 硬盘
2. 操作系统
  • Ubuntu 20.04 LTS 或 CentOS 7/8
3. 网络配置
  • 静态 IP 分配(例如:192.168.1.101~103)
  • 主机名映射(/etc/hosts):

    plaintext

    192.168.1.101 hadoop-master
    192.168.1.102 hadoop-slave1
    192.168.1.103 hadoop-slave2
    

二、核心组件安装

1. Hadoop 分布式系统
  • 安装步骤参考之前的回答
  • 配置高可用(HA)模式(可选)
2. Hive 数据仓库

bash

# 下载和解压
wget https://downloads.apache.org/hive/hive-3.1.3/apache-hive-3.1.3-bin.tar.gz
tar -xzf apache-hive-3.1.3-bin.tar.gz -C /opt/
mv /opt/apache-hive-3.1.3-bin /opt/hive# 配置环境变量
echo 'export HIVE_HOME=/opt/hive' >> ~/.bashrc
echo 'export PATH=$PATH:$HIVE_HOME/bin' >> ~/.bashrc
source ~/.bashrc
3. Spark 计算引擎

bash

# 下载和解压
wget https://downloads.apache.org/spark/spark-3.3.2/spark-3.3.2-bin-hadoop3.tgz
tar -xzf spark-3.3.2-bin-hadoop3.tgz -C /opt/
mv /opt/spark-3.3.2-bin-hadoop3 /opt/spark# 配置环境变量
echo 'export SPARK_HOME=/opt/spark' >> ~/.bashrc
echo 'export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin' >> ~/.bashrc
source ~/.bashrc
4. HBase 分布式数据库

bash

# 下载和解压
wget https://downloads.apache.org/hbase/2.5.7/hbase-2.5.7-bin.tar.gz
tar -xzf hbase-2.5.7-bin.tar.gz -C /opt/
mv /opt/hbase-2.5.7 /opt/hbase# 配置环境变量
echo 'export HBASE_HOME=/opt/hbase' >> ~/.bashrc
echo 'export PATH=$PATH:$HBASE_HOME/bin' >> ~/.bashrc
source ~/.bashrc

三、服务集成与配置

1. Hive 与 Hadoop 集成
  • 修改 $HIVE_HOME/conf/hive-site.xml

    xml

    <configuration><property><name>hive.metastore.warehouse.dir</name><value>/user/hive/warehouse</value></property><property><name>hive.metastore.uris</name><value>thrift://hadoop-master:9083</value></property>
    </configuration>
    
2. Spark 与 Hadoop 集成
  • 修改 $SPARK_HOME/conf/spark-env.sh

    bash

    export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
    export SPARK_MASTER_HOST=hadoop-master
    export SPARK_WORKER_MEMORY=2g
    
3. HBase 与 Hadoop 集成
  • 修改 $HBASE_HOME/conf/hbase-site.xml

    xml

    <configuration><property><name>hbase.rootdir</name><value>hdfs://hadoop-master:9000/hbase</value></property><property><name>hbase.cluster.distributed</name><value>true</value></property>
    </configuration>
    

四、服务启动与验证

1. 启动顺序

bash

# 启动 Hadoop
start-dfs.sh
start-yarn.sh# 启动 Hive Metastore
hive --service metastore &# 启动 Spark
start-master.sh
start-workers.sh# 启动 HBase
start-hbase.sh
2. 验证服务
  • Hadoop:http://hadoop-master:9870(HDFS)和 http://hadoop-master:8088(YARN)
  • Spark:http://hadoop-master:8080
  • HBase:http://hadoop-master:16010

五、可视化工具安装

1. Zeppelin 数据探索

bash

# 下载和解压
wget https://downloads.apache.org/zeppelin/zeppelin-0.10.1/zeppelin-0.10.1-bin-all.tgz
tar -xzf zeppelin-0.10.1-bin-all.tgz -C /opt/
mv /opt/zeppelin-0.10.1-bin-all /opt/zeppelin# 启动 Zeppelin
/opt/zeppelin/bin/zeppelin-daemon.sh start

访问:http://hadoop-master:8081

2. Superset 数据可视化

bash

# 安装依赖
sudo apt install python3-pip python3-venv# 创建虚拟环境
python3 -m venv superset
source superset/bin/activate# 安装 Superset
pip install apache-superset
superset db upgrade# 创建管理员用户
superset fab create-admin# 初始化
superset init# 启动 Superset
superset run -p 8088 --with-threads --reload --debugger

访问:http://hadoop-master:8088

http://www.xdnf.cn/news/398359.html

相关文章:

  • 服务网格的“解剖学” - 控制平面与数据平面
  • 支付宝API-SKD-GO版
  • 打破GPU显存墙:FlashAttention-2算法在LLM训练中的极致优化实践
  • OpenCV CUDA 模块中在 GPU 上对图像或矩阵进行 翻转(镜像)操作的一个函数 flip()
  • Dockerfile 常见语法和指令
  • 青少年编程与数学 02-019 Rust 编程基础 08课题、字面量、运算符和表达式
  • RDD的五大特征
  • DICOM 网络服务实现:医学影像传输与管理的技术实践
  • Hadoop的组成,HDFS架构,YARN架构概述
  • 互联网大厂Java求职面试实战:Spring Boot与微服务场景深度解析
  • 学习日志03 java
  • 【Java继承】——面向对象编程的基石
  • ngx_http_limit_conn_module精准连接控制
  • C#里WPF使用触发器实现鼠标点击响应
  • 谷歌Gemini生图升级:与GPT-4o的对决,谁更胜一筹?
  • 克隆虚拟机组成集群
  • Python爬虫第20节-使用 Selenium 爬取小米商城空调商品
  • Electron学习大纲
  • 从零开始的python学习(七)P89+P90+P91+P92+P93+P94
  • 关于高并发GIS数据处理的一点经验分享
  • flutter 的 json序列化和反序列化
  • 南京邮电大学金工实习答案
  • 全模态具身智能:从 VLM 到 MLLM
  • Multisim14使用教程详尽版--(2025最新版)
  • 【网络原理】数据链路层
  • 场馆订 场馆预订平台 数据库设计
  • 如何构建通用深度反思(deep-research)能力的Agent?
  • 5.串口的输入输出
  • redis数据结构-04 (HINCRBY、HDEL、HKEYS、HVALS)
  • 牛客周赛 Round 92-题解