当前位置: 首页 > ds >正文

HDFS 写入和读取流程


HDFS 写入流程细化

1. 主线流程速记口诀

“先找主脑定文件,分配块副找节点;流水传块多副本,写完通知主脑存。”


2. 详细流程拆解

1. 客户端请求上传(Create 文件)

关键方法:

  • org.apache.hadoop.fs.FileSystem#create
  • org.apache.hadoop.hdfs.DistributedFileSystem#create
  • RPC 调用:ClientProtocol#create

内部逻辑:

  • 客户端调用 FileSystem#create(path),通过 RPC 向 NameNode 发起“我要新建文件”请求。

源码片段:

// FileSystem.java
FSDataOutputStream out = fs.create(new Path("/user/hadoop/test.txt"));
// DistributedFileSystem.java
public FSDataOutputStream create(Path f, ...) {return dfs.create(getPathName(f), ...);
}
// DFSClient.java
public OutputStream create(String src, ...) {namenode.create(src, ...); // RPC 请求
}

口诀注释:
主脑即 NameNode,先发“新建”请求。


2. NameNode 检查与元数据创建

关键方法:

  • org.apache.hadoop.hdfs.server.namenode.FSNamesystem#startFile
  • FSDirectory#addFile

内部逻辑:

  • NameNode 检查目录和权限,文件是否已存在。
  • 创建文件元数据,登记文件名、父目录、权限等。

源码片段:

// FSNamesystem.java
public void startFile(...) {// 检查目录、权限// 创建 INodeFile// 记录日志
}

口诀注释:
主脑查目录权限,登记新文件元数据。


3. Block 分配与 DataNode 列表下发

关键方法:

  • org.apache.hadoop.hdfs.server.namenode.FSNamesystem#allocateBlock
  • BlockManager#chooseTarget4NewBlock

内部逻辑:

  • NameNode 根据副本策略,选择 DataNode 并分配块。
  • 返回块 ID 和 DataNode 列表给客户端。

源码片段:

// FSNamesystem.java
LocatedBlock locatedBlock = allocateBlock(...);// BlockManager.java
chooseTarget4NewBlock(...)

口诀注释:
分配块副本,选定存放节点。


4. 客户端流水线写数据块

关键方法:

  • org.apache.hadoop.hdfs.DFSOutputStream#writeChunk
  • DataStreamer#run

内部逻辑:

  • 客户端建立与第一个 DataNode 的连接,DataNode 之间串联成流水线。
  • 数据块被切分成 packet,按顺序流向各 DataNode。
  • 每个 DataNode 写磁盘并返回 ACK。

源码片段:

// DFSOutputStream.java
writeChunk(...); // 写入数据
// DataStreamer.java
run(); // 负责数据传输和 ACK 处理

口诀注释:
流水线传块,副本级联写入。


5. 块写入完成与确认

关键方法:

  • DataNode#blockReceivedAndDeleted
  • NameNode#complete

内部逻辑:

  • 所有块写入完毕后,客户端通知 NameNode。
  • NameNode 更新文件状态为“已完成”,持久化元数据。

源码片段:

// DFSClient.java
namenode.complete(src, clientName, ...);
// FSNamesystem.java
completeFile(...); // 完成文件写入

口诀注释:
写完通知主脑,文件状态完成。


6. 写入流程图(Mermaid)

Client NameNode DataNode1 DataNode2 DataNode3 create() 分配Block和DataNode列表 写数据块 副本转发 副本转发 ACK complete() Client NameNode DataNode1 DataNode2 DataNode3

HDFS 读取流程细化

1. 主线流程速记口诀

“先问主脑要位置,选好节点取数据;分块并发快下载,组装文件得全局。”


2. 详细流程拆解

1. 客户端请求读取

关键方法:

  • org.apache.hadoop.fs.FileSystem#open
  • RPC:ClientProtocol#getBlockLocations

内部逻辑:

  • 客户端调用 open(path),通过 RPC 向 NameNode 请求块和 DataNode 的位置信息。

源码片段:

// FileSystem.java
FSDataInputStream in = fs.open(new Path("/user/hadoop/test.txt"));
// DFSClient.java
public LocatedBlocks getBlockLocations(String src, ...) {return namenode.getBlockLocations(src, ...); // RPC
}

口诀注释:
主脑给出块位置,客户端拿到 DataNode 列表。


2. NameNode 返回块元数据

关键方法:

  • org.apache.hadoop.hdfs.server.namenode.FSNamesystem#getBlockLocations

内部逻辑:

  • NameNode 查询文件块分布,返回每个块的 DataNode 列表。

源码片段:

// FSNamesystem.java
getBlockLocations(...);

口诀注释:
主脑查块分布,返回节点清单。


3. 客户端读取数据块

关键方法:

  • org.apache.hadoop.hdfs.DFSInputStream#read
  • BlockReaderFactory#newBlockReader

内部逻辑:

  • 客户端从 DataNode 读取数据块,可并发多线程读取不同块。
  • 自动选择健康的 DataNode,若失败自动切换。

源码片段:

// DFSInputStream.java
BlockReader reader = new BlockReaderFactory(...).build();
reader.read(...);

口诀注释:
并发取块,健康优先,故障切换。


4. 数据组装

关键方法:

  • FSDataInputStream#read
  • 由客户端按块顺序拼接还原文件

内部逻辑:

  • 客户端按文件逻辑顺序拼接所有块数据,得到完整文件。

源码片段:

// FSDataInputStream.java
int n = in.read(buffer);

口诀注释:
拼接数据块,文件得全局。


5. 读取流程图(Mermaid)

Client NameNode DataNode1 getBlockLocations() 返回块和DataNode列表 读取数据块 组装完整文件 Client NameNode DataNode1

总结口诀速记

  • 写入口诀
    “先找主脑定文件,分配块副找节点;流水传块多副本,写完通知主脑存。”
  • 读取口诀
    “先问主脑要位置,选好节点取数据;分块并发快下载,组装文件得全局。”

如需某个流程的源码更详细解析或更深入的注释,可以告诉我要哪个部分!

http://www.xdnf.cn/news/10891.html

相关文章:

  • 深入理解:为什么 Java HashMap 扩容为原数组长度的 2 倍?
  • 大模型模型推理的成本过高,如何进行量化或蒸馏优化
  • 历史记录隐藏的安全风险
  • 阿里云服务器 篇十六:在线工具网站
  • Rust 函数
  • web复习(五)
  • 自动化采集脚本与隧道IP防封设计
  • tryhackme——Abusing Windows Internals(进程注入)
  • k8s更新证书
  • Python基于SVM技术的手写数字识别问题项目实战
  • 一个html实现数据库自定义查询
  • Scrapy爬虫框架Spiders爬虫脚本使用技巧
  • 【蓝桥杯】包子凑数
  • 用Python训练自动驾驶神经网络:从零开始驾驭未来之路
  • VR线上展厅特点分析与优势
  • 计算机组成原理知识点汇总(五)计算机运算方法
  • web攻防之SSTI 注入漏洞
  • 黑马Java面试笔记之 集合篇(算法复杂度+ArrayList+)
  • 【数据库】安全性
  • 【笔记】使用Media Creation Tool给新主机装win10魔改iso
  • 00 Deep learning 之回归、拟合、逻辑回归
  • SAP学习笔记 - 开发20 - 前端Fiori开发 Nest View(嵌套视图) ,Fragment(片段)
  • 深入解析 MultipartFile:Spring 框架下的高效文件处理方案
  • backend 服务尝试连接 qdrant 容器,但失败了,返回 502 Bad Gateway 问题排查
  • [Java恶补day14] 56. 合并区间
  • JAVA获取ES连接并查询所有数据
  • RTP over TCP 模式
  • 如何用 pnpm patch 给 element-plus 打补丁修复线上 bug(以 2.4.4 修复 PR#15197 为例)
  • 4-C#的不同窗口传值
  • 洛谷P12610 ——[CCC 2025 Junior] Donut Shop