当前位置：首页 > ai >正文

HDFS概述

ai 2025/7/5 12:19:23

第一课时

一、导入
前面的课程我们搭建好了hadoop集群，并测试了它们的基本使用方式，下面几节课，我们来系统学习一下hadoop的三个组成之一：hdfs的相关内容。

二、授新
（一）HDFS的产生背景及定义
1.HDFS产生背景

随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。

2.HDFS定义

HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。

（二）HDFS优缺点
优点

1. 高容错性。数据自动保存多个副本（可以灵活指定副本个数），它通过增加副本的形式，提高容错性。一个副本丢失之后，它可以自动恢复。

2. 适合处理大数据

数据规模：能够处理数据规模达到GB、TB、甚至PB级别的数据。

文件规模：能够处理百万规模以上的文件数量。

3. 可构建在廉价机器上，通过多副本机制，提高可靠性。

缺点

1. 不适合低延时数据访问，比如毫秒级的存储数据，是做不到的。

2. 无法高效的对大量小文件进行存储。存储大量小文件会占用NameNode大量的内存来存储文件目录和快信息。小文件存储的寻址时间会超过读取时间，它违反了HDFS的设计目标。

3. 不支持并发写入，文件随机修改。一个文件只能有一个写，不允许多个线程同时写；仅仅支持数据append（追加），不支持文件的随机修改；

（三）HDFS组成架构
HDFS的功能非常强大，那它内部是怎么工作的呢？我们来看看下面这张架构图。

NameNode（nn）：就是 Master，它是一个主管、管理者。

(1) 管理 HDFS 的名称空间；

(2) 配置副本策略。记录某些文件应该保持几个副本；

(3) 管理数据块（Block）映射信息；一个大文件可能有多个数据块（一块为128M），每个块保存在哪里？

(4) 处理客户端读写请求。

DataNode：就是 Slave。NameNode 下达命令，DataNode 执行实际的操作。

(1) 存储实际的数据块；

(2) 执行数据块的读 / 写操作。

Secondary NameNode：并非 NameNode 的热备。当 NameNode 挂掉的时候，它并不能马上替换 NameNode 并提供服务。真实的开发中，我们会配置两个个namenode来实现高可用。

(1) 辅助 NameNode，分担其工作量，比如定期合并 Fsimage 和 Edits，并推送给 NameNode；

(2) 在紧急情况下，可辅助恢复 NameNode。

Client：就是客户端。

(1)文件上传 HDFS 的时候，Client 将文件切分成一个一个的 Block，然后进行上传；

(2)与 NameNode 交互，获取文件的位置信息；

(3)与 DataNode 交互，读取或者写入数据；

(4) Client 提供一些命令来管理 HDFS，比如 NameNode 格式化；

(5) Client 可以通过一些命令来访问 HDFS，比如对 HDFS 增删查改操作；

（四）HDFS文件块大小
HDFS中的文件在物理上是分块存储（Block），块的大小可以通过配置参数（dfs.blocksize）来规定，默认大小是128M。

请大家思考：为什么要默认是128M呢？

依据的原则是：寻址时间为传输时间的1%时，则为最佳状态。寻址时间约为10ms（找到块的时间），因此传输时间为10ms/0.01=1s。现在的磁盘传输速度普遍为100MB/s，按这个比例来计算，设置128M比较合理。

所以块的大小不能设置太小，也不能设置太大。如果 HDFS的块设置太小，会增加寻址时间，程序一直在找块的开始位置；如果块设置的太大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序在处理这块数据时，会非常慢。

（五）HDFS相关服务
在指定了namenode的节点上，通过start-dfs.sh来启动服务，此时，我们通过jps命令可以看到如下的进程：

namenode， datanode

在指定了2nn的节点上，通过jps我们可以看到如下的进程：

2nn, datanode

掌握这个技巧可以有利于我们去排查错误。

第二课时

上面我们介绍了hdfs的相关理论，下面我们来看看实际的操作，在操作之前，请确保正确启动了集群。

在前面的学习中，我们向集群上传文件，那如何查看hdfs上保存的文件信息呢？可以从它提供的web服务中通过浏览器来访问，也可以通过api来操作。接下来我们来介绍通过api操作的方式。

常用操作及命令如下，我们重点介绍：文件上传，下载，查看

（六）shell操作文件上传
文件上传的意思是把文件从某个位置上传到集群中。它有两种操作，一是移动，会把当前的文件删除，二是复制，保留当前的文件。

从本地剪切粘贴到HDFS。把本地的文件上传到HDFS,并删除本地的文件。假设你在hadoop102上有一个文件/opt/conf/sanguo.txt(请自行创建)。
基本格式是：

hadoop fs -moveFormLocal 本地文件路径服务器上的文件路径

可以通过如下命令把这个文件上传到服务器上。

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -moveFromLocal /opt/tmp/sanguo.txt /sanguo.txt

注意到，它会把本地的文件删除掉。

2.如果要保留本地的文件，可以使用 -put 命令。具体如下：

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -put /opt/tmp/sanguo.txt /sanguo

（七）shell操作文件下载
下载就是把集群中的文件下载到本地。它要用到的命令是hadoop fs -get。

基本格式是：

hadoop fs -get 服务器上的文件路径本地文件路径

示例需求：把服务器上的shuguo.txt 下载到hadoop100的 files目目录下。

对应的命令：

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -get /sanguo/shuguo.txt ./shuguo2.txt

（八）其他shell操作
大家自行练习，这里不再赘述。

1.显示目录信息
使用-ls命令，示例如下：

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -ls /

上面的命令用来查看根目录（/）下的文件。

2.创建文件夹
使用-mkdir命令。格式是：hadoopfs -mkdir 文件名。示例如下：

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -mkdir /jinguo

3.显示文件内容
使用-cat命令。示例如下：

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -cat /sanguo/shuguo.txt

4.拷贝文件。
使用-cp命令。表示从HDFS的一个路径拷贝到HDFS的另一个路径

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -cp /sanguo/shuguo.txt /jinguo

5.移动文件
使用-mv命令，它的格式是： hadoop fs -mv 文件起点终点

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -mv /sanguo/wuguo.txt /jinguo

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -mv /sanguo/weiguo.txt /jinguo

6.删除文件或文件夹
使用-rm 命令，它的格式是： -rm 要删除的文件

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -rm /sanguo/shuguo.txt

7.递归删除
使用-rm -r命令，它用来删除目录及目录里面内容，它的格式是： -rm -r 要删除的文件夹。

[root@hadoop102 hadoop-3.1.3]$ hadoop fs -rm -r /sanguo

8.统计文件夹的大小信息
使用命令 -du。示例如下

[root@hadoop102 hadoop-3.1.3]$ hadoop fs -du -s -h /jinguo

27 81 /jinguo

这个文件夹下面的文件信息

[root@hadoop102 hadoop-3.1.3]$ hadoop fs -du -h /jinguo

14 42 /jinguo/shuguo.txt

7 21 /jinguo/weiguo.txt

6 18 /jinguo/wuguo.txt

说明：27表示文件大小；81表示27*3个副本；/jinguo表示查看的目录

-setrep：设置HDFS中文件的副本数量
[root@hadoop102 hadoop-3.1.3]$ hadoop fs -setrep 10 /jinguo/shuguo.txt

效果如下

这里设置的副本数只是记录在NameNode的元数据中，是否真的会有这么多副本，还得看DataNode的数量。因为目前只有3台设备，最多也就3个副本，只有节点数的增加到10台时，副本数才能达到10。

三、课堂小结
通过本堂课的学习，我们学习了hdfs的相关基础知识，并使用shell脚本进行了上传和下载,shell脚本还有很多，请大家自行去练习

查看全文

http://www.xdnf.cn/news/5665.html

XXE记录

如何使用人工智能翻译WordPress网站

如何进行前端性能测试？--性能标准

SnowAdmin - 功能丰富、简单易用的开源的后台管理框架，基于 Vue3 / TypeScript / Arco Design 等技术栈打造

Docke容器下JAVA系统时间与Linux服务器时间不一致问题解决办法

RN 鸿蒙混合开发实践(踩坑)

用生活例子通俗理解 Python OOP 四大特性

大中台，小前台：企业数字化转型的核心引擎

多样本整合Banksy空间聚类分析(Visium HD, Xenium, CosMx)

Vector ASAP2

智能网联汽车“内外协同、虚实共生”的通信生态

理解多智能体深度确定性策略梯度MADDPG算法:基于python从零实现

TestNG接口自动化

Clion远程开发git触发“No such device or address”的解决方案

C++ 的 VS 项目中引入跨平台包管理工具 conan

IDEA 插件推荐：提升编程效率

P1874 快速求和

笔记本电脑升级实战手册[3]：扩展内存与硬盘

Matlab 234-锂电池充放电仿真

在 .NET 8 开发的WinForms 程序中展示程序版本号的几种方式

运行Spark程序-在Idea中（二）

汽车紧固件涂层18问：看敦普无铬锌铝涂料如何为螺丝防锈防腐

多重背包、分组背包、混合背包和多维背包

交易所开发-如何开发一个交易所

【C语言】宏经典练习题，交换奇偶位

直播：怎样用Agentic AI搭建企业AI应用？5.24日，拆解新一代“智能客服系统”案例

GitDiagram - GitHub 仓库可视化工具

神经网络初步学习——感知机

EnumUtils：你的枚举“变形金刚“——让枚举操作不再手工作业

第六章 Java基础-方法

相关文章：