当前位置：首页 > news >正文

配置Hadoop集群-上传文件

news 2025/8/26 19:50:15

（一）上传小文件

上传文件的时候，我们传一个大一点的（>128M），再传一个小一点的。对于大一点的文件，我们要去看看它是否会按128M为单位去拆分这个大文件，而拆分成大文件之后，我们又怎么才能去还原？

下面我们来看具体操作：

打开hadoop100:9870,点击上传，选择我们需要上传的文件（建议选择一个简单的文本文件）,上传之后的结果如下：

命令格式如下：

hadoop fs -put 要上传的文件目标位置

下面我们上传一个小文件，你可以自己去找一个文本文件，或者自己创建一个都可以。cd

上传小文件（小于128M）

[root@hadoop100 ~]$ hadoop fs -mkdir /input

[root@hadoop100 ~]$ hadoop fs -put $HADOOP_HOME/wcinput/word.txt /input

上传大文件（大于128M）

[root@hadoop100 ~]$ hadoop fs -put /opt/software/jdk-8u212-linux-x64.tar.gz /

上传文件后查看文件存放在什么位置

在我们上一节的hadoop配置中，我们设置了保持文件的目录是/data，所以，我们进入hadoop的按照目录下的data中去看一看。

这个存储的目录特别深，大概类似于：/opt/module/hadoop-3.1.3/data/dfs/data/current/BP-1436128598-192.168.10.102-1610603650062/current/finalized/subdir0/subdir0

文件的名称是blk_xxx。我们可以使用cat命令查看HDFS在磁盘存储文件内容：

[root@hadoop102 subdir0]$ cat blk_1073741825

hadoop yarn

hadoop mapreduce

root

（三）上传大文件

前面我们上传了一个小文件，可以看到这个文件太小，hadoop被没有被切分成小块。接下来我们传一个大一点的文件，例如jdk的安装包。（注意，你可以上传一些别的文件，但是务必确保大小是大于128M）

我们把它保存在集群的根目录。

上传完成之后，我们去查看，很明显大文件被分块了，128M一块，一共有两个块。可以通过cat >> 命令把两个块的内容拼接到一起，然后再去解压缩一下。

类似于如下：

-rw-rw-r--. 1 root root 134217728 5月 23 16:01 blk_1073741836

-rw-rw-r--. 1 root root 1048583 5月 23 16:01 blk_1073741836_1012.meta

-rw-rw-r--. 1 root root 63439959 5月 23 16:01 blk_1073741837

-rw-rw-r--. 1 root root 495635 5月 23 16:01 blk_1073741837_1013.meta

[root@hadoop102 subdir0]$ cat blk_1073741836>>tmp.tar.gz

[root@hadoop102 subdir0]$ cat blk_1073741837>>tmp.tar.gz

[root@hadoop102 subdir0]$ tar -zxvf tmp.tar.gz

查看全文

http://www.xdnf.cn/news/425071.html

python_竞态条件

Gemini 2.5 推动视频理解进入新时代

多模态大语言模型arxiv论文略读（七十三）

二维差分（主要看原数组与差分数组的关系）

python: union()函数用法

解决 MinIO 对象存储“AccessDenied”问题及 Docker 操作全解析

《Docker 入门与进阶：架构剖析、隔离原理及安装实操》

【认知思维】沉没成本谬误：为何难以放弃已投入的资源

jenkins流水线常规配置教程!

libMemcached 库下载记录

SQL 中 INSTR 函数简介及截取地址应用

【python】—conda新建python3.11的环境报错

第五十七篇 Java接口设计之道：从咖啡机到智能家居的编程哲学

本地部署ollama及deepseek（linux版）

ssl 中 key 和pem 和crt是什么关系

配置 Spark 以 YARN 模式

笔试模拟 day9

深入理解Java编写泛型的方法！

杰理-701-手表sdk无法电脑连接经典蓝牙

微信小程序的开发及问题解决

游戏资源传输服务器

第三章初始化配置（一）

GitHub 趋势日报 (2025年05月12日)

电能质量扰动信号信号通过hilbert变换得到瞬时频率

2025.05.11拼多多机考真题算法岗-第一题

MCU开发学习记录14* - 8080学习与实践(HAL库) - 控制LCD屏幕显示中英文、图片 - STM32CubeMX

【Axure视频教程】中继器表格间批量控制和传值

艺考之神余嘉诚话剧舞台首秀《屈原辞》倾情演绎楚辞风骨

[Java][Leetcode middle] 45. 跳跃游戏 II

音频转文字-在线工具包及使用记录

相关文章：