当前位置: 首页 > news >正文

hadoop集群单词统计(ssh与web)

准备工作

本文不包含部署过程,请自行搜索教程
请确保已经部署好集群并且可正常启动
准备一个txt测试文件,例如
在这里插入图片描述

一、SSH

1.通过ssh连接集群的主节点

在这里插入图片描述

2.将刚才的txt文件上传到主机中

我这个软件是finalshell
在这里插入图片描述

3.启动集群

start-all.sh

在这里插入图片描述

4.上传测试文件

# 创建目录(-p 确保父目录存在)
hdfs dfs -mkdir -p /wordcount/input# 上传本地文件到 HDFS(假设你的数据在本地 /path/to/local/input)
hdfs dfs -put /path/to/local/input/* /wordcount/input/

注意这个目录是集群上的目录,和你本地目录不是一个意思

5.计算

(1)进入mapreduce的目录
在这里插入图片描述
(2)注意你想输出的目录是不能存在的,如果已经有了会报错,删掉
在这里插入图片描述

hdfs dfs -rm -r /wordcount/output

(3)运行

hadoop jar hadoop-mapreduce-examples-3.3.5.jar wordcount /wordcount/input /wordcount/output

在这里插入图片描述

6.结果

hdfs dfs -ls /wordcount/output
hdfs dfs -cat /wordcount/output/part-r-00000

这个part文件你也可以再从集群下载到本地导出
在这里插入图片描述

二、web

web就不用ssh连接,都是虚拟机里直接操作

1.启动集群

start-all.sh

2.创建目录并上传文件

(1)打开浏览器,直接进入本地集群
在这里插入图片描述
(2)给权限

hdfs dfs -chmod 777 /

(3)创建目录/wordcount/input

(3)可以看到这是刚刚创建的目录,现在以当前用户新建wordcount2/input

可以直接修改权限
在这里插入图片描述

(4)input下上传文件
在这里插入图片描述

但是可能发现上传失败
看一下记录
在这里插入图片描述
这里我们可以看到是想通过2和3节点上传,但是windows不知道这两个节点的ip,所以连接不到,那么给windows系统配置一下

此目录下右键hosts选择属性
在这里插入图片描述
在这里插入图片描述

用记事本打开
最后面写上ip和名称对应,保存关闭
在这里插入图片描述

3.运行

回虚拟机,从刚才创建的目录执行
(1)进入mapreduce的目录
在这里插入图片描述
(2)注意你想输出的目录是不能存在的,如果已经有了会报错,删掉
在这里插入图片描述

hdfs dfs -rm -r /wordcount/output

(3)运行

hadoop jar hadoop-mapreduce-examples-3.3.5.jar wordcount /wordcount/input /wordcount/output

在这里插入图片描述

(4)下载
回到web,刷新一下
在这里插入图片描述点进新的文件夹
在这里插入图片描述

下面那个就是结果,直接点击下载
在这里插入图片描述
记事本打开直接看结果
在这里插入图片描述

http://www.xdnf.cn/news/876511.html

相关文章:

  • AI助力Java开发:减少70%重复编码,实战效能提升解析
  • 如何在 git dev 中创建合并请求
  • 具备强大的数据处理和分析能力的智慧地产开源了
  • 【项目实践】SMBMS(Javaweb版)(二)登录功能
  • 《动手深度学习》8.2文本预处理—代码分析
  • Kafka消息队列笔记
  • 打包成windows exe
  • json 支持复杂结构预览、大模型服务部署体验优化|ModelWhale 版本更新
  • Ansible自动化运维全解析:从设计哲学到实战演进
  • 手写Promise中的实例方法catch
  • 如何做出更明智的选择:从吃馒头看经济学思维
  • 嵌入式学习Day32
  • 三维坐标转换
  • AXPM11584:颠覆传统,发现新可能
  • 灰狼优化算法MATLAB实现,包含种群初始化和29种基准函数测试
  • Mask篇 (含引导层、不规则遮罩)
  • 深入解析Java17核心新特性(密封类、模式匹配增强、文本块)
  • Python 类型注释 - typing
  • 关于Dify聊天对话名称无法自动生成的原因和解决方法
  • ReviewHub:实现Booster与设计工具端无缝链接的评审协作平台
  • Seata 分布式事务安装配置集成实战
  • Git忽略规则.gitignore不生效解决
  • 突破模型成本瓶颈:MoE如何让专业大模型更易用?​
  • echarts使用graph、lines实现拓扑,可以拖动增加effect效果
  • 力扣HOT100之二分查找:35. 搜索插入位置
  • PH热榜 | 2025-06-04
  • Facebook接入说明
  • JavaScript 二维数组初始化:为什么 fill([]) 是个大坑?
  • 群论在现代密码学中的应用探索与实践 —— 从理论到C语言实现
  • 列出浏览器所有的启动参数,并解释说明每个参数的含义