当前位置：首页 > news >正文

Hadoop HDFS 体系结构与文件读写流程剖析

news 2025/6/7 20:28:08

Hadoop HDFS 体系结构与文件读写流程剖析

一、HDFS 理论基础

HDFS（Hadoop Distributed File System） 是 Hadoop 的分布式文件系统，专为大规模数据存储和高吞吐量访问设计，具备高容错性和可扩展性，适合部署在廉价硬件集群上。

1. 主要组件

NameNode：负责管理文件系统的元数据（如目录结构、文件到块的映射、块副本位置等）。
DataNode：负责实际数据块的存储、读写操作。
Secondary NameNode：辅助 NameNode 合并编辑日志与镜像文件（fsimage），并非主备节点。
Client：HDFS 用户，负责发起读写请求。

2. 数据存储方式

块（Block）：HDFS 将文件切分为块（默认128MB），每块独立存储。
副本机制：每个数据块有多个副本（默认3份），分布在不同 DataNode 上，实现容错。

二、HDFS 读写流程

1. 写入（上传）流程

客户端请求上传：向 NameNode 发送创建文件请求。
NameNode 分配资源：检查目录和文件、分配块及 DataNode 列表，登记元数据。
客户端写入数据块：
- 客户端将数据切分为块，采用流水线机制依次写入 DataNode 副本。
- 每写完一个块，继续请求 NameNode 分配下一个块的 DataNode 列表。
写入完成通知：所有块写入完毕后，客户端通知 NameNode，NameNode 更新元数据。

纯文本流程图

Client||--(1)请求创建文件--> NameNode||<--(2)分配Block和DataNode列表---||--(3)写数据块到DataNode1|------------------------->DataNode2|------------------------->DataNode3||--(4)写完通知NameNode

Mermaid 时序图

2. 读取（下载）流程

客户端请求读取：向 NameNode 请求文件块位置信息。
NameNode 返回位置信息：返回所有块及其 DataNode 位置。
客户端读取数据块：直接从 DataNode 读取数据块（可并行）。
数据组装：客户端将块数据按顺序组装为完整文件。

纯文本流程图

Client||--(1)请求读取文件--> NameNode||<--(2)返回Block和DataNode位置---||--(3)直接从DataNode读取数据块||--(4)组装为完整文件

Mermaid 时序图

三、HDFS 特点总结

高容错性：多副本机制，节点故障不影响数据可用性。
高吞吐量：适合大文件批量处理，不适合低延迟小文件操作。
良好扩展性：可通过增加节点轻松扩容。
流式数据访问：一次写入，多次读取，适合大数据分析场景。

四、Markdown 流程图说明

纯文本流程图：任何 Markdown 工具都能显示。
Mermaid 语法：需支持 Mermaid 渲染的 Markdown 编辑器（如 Typora、Obsidian、语雀、Gitee、GitHub 等）才能看到图形效果。

五、参考架构图

在这里插入图片描述
—如需了解 HDFS 代码示例、API 使用、部署细节等，欢迎继续提问！

查看全文

http://www.xdnf.cn/news/779995.html

宝塔面板安装nodejs后，通过node -v获取不到版本号，报错node: command not found

Qwen与Llama分词器核心差异解析

【RabbitMQ】- Channel和Delivery Tag机制

【mysql】BIGINT UNSIGNED字段被表示为float科学计数法丢失精度问题

学习路之PHP--easyswoole使用视图和模板

MFC Resource.h 文件详解与修改指南

nginx+tomcat动静分离、负载均衡

JavaScript性能优化实战：从核心原理到工程实践的全流程解析

【大模型:知识图谱】--1.py2neo连接图数据库neo4j

Neo4j 数据建模：原理、技术与实践指南

Java详解LeetCode 热题 100(25):LeetCode 141. 环形链表（Linked List Cycle）详解

JVM—垃圾收集算法和HotSpot算法实现细节

Kerberos面试内容整理-Kerberos 的配置与排障

力扣每日一题——分发糖果

React Native图片预加载：让你的应用图片预览像德芙一样丝滑

实验设计与分析（第6版，Montgomery著，傅珏生译) 第10章拟合回归模型10.9节思考题10.1 R语言解题

Python趣学篇：从零打造智能AI井字棋游戏（Python + Tkinter + Minimax算法）

编译 Linux openssl

黑客利用GitHub现成工具通过DevOps API发起加密货币挖矿攻击

C++语法系列之类型转换

Catboost算法原理及应用场景

生成对抗网络（GAN）基础原理深度解析：从直观理解到形式化表达

C语言学习—数据类型20250603

NLP学习路线图（二十）：FastText

K8S上使用helm部署 Prometheus + Grafana

Grafana-State timeline状态时间线

乐播视频v4.0.0纯净版体验：高清流畅的视听盛宴

Tailwind CSS 实战：基于 Kooboo 构建 AI 对话框页面（六）：图片上传功能

Linux(线程概念)

《深入解析SPI协议及其FPGA高效实现》-- 第三篇：FPGA实现关键技术与优化

Hadoop HDFS 体系结构与文件读写流程剖析

一、HDFS 理论基础

1. 主要组件

2. 数据存储方式

二、HDFS 读写流程

1. 写入（上传）流程

纯文本流程图

Mermaid 时序图

2. 读取（下载）流程

纯文本流程图

Mermaid 时序图

三、HDFS 特点总结

四、Markdown 流程图说明

五、参考架构图

相关文章：