当前位置: 首页 > news >正文

MapReduce-Top N程序编写与运行

我的是hadoop2.7.7  如果是其他版本  需要自己更改!!!!!!!!!

一、写MapReduce-Top N程序

先创建项目 然后配置Maven文件

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>com.hadoop</groupId><artifactId>topn</artifactId><version>1.0-SNAPSHOT</version><properties><hadoop.version>2.7.7</hadoop.version><java.version>1.8</java.version></properties><dependencies><!-- Hadoop Core --><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common</artifactId><version>${hadoop.version}</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-mapreduce-client-core</artifactId><version>${hadoop.version}</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>${hadoop.version}</version></dependency></dependencies><build><plugins><plugin><groupId>org.apache.maven.plugins</groupId><artifactId>maven-compiler-plugin</artifactId><version>3.8.1</version><configuration><source>${java.version}</source><target>${java.version}</target></configuration></plugin><plugin><groupId>org.apache.maven.plugins</groupId><artifactId>maven-shade-plugin</artifactId><version>3.2.4</version><executions><execution><phase>package</phase><goals><goal>shade</goal></goals><configuration><filters><filter><artifact>*:*</artifact><excludes><exclude>META-INF/*.SF</exclude><exclude>META-INF/*.DSA</exclude><exclude>META-INF/*.RSA</exclude></excludes></filter></filters><transformers><transformer implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer"><mainClass>com.hadoop.topn.TopNDriver</mainClass></transformer></transformers></configuration></execution></executions></plugin></plugins></build>
</project>

然后先点右边的maven  更新配置  先卸载clean,再点install进行更新依赖

先把src/main/java/下的org/example包删了,重新创建包 为com/hadoop/topn,不删原始包也可以  代码中要改了 然后再创建三个类,分别为:TopNReducer、TopNMapper、TopNDriver.

package com.hadoop.topn;import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;import java.io.IOException;
import java.util.TreeMap;public class TopNReducer extends Reducer<Text, IntWritable, Text, IntWritable> {private final TreeMap<Integer, String> topRecords = new TreeMap<>();private int N;@Overrideprotected void setup(Context context) {N = context.getConfiguration().getInt("top.n", 10);}@Overridepublic void reduce(Text key, Iterable<IntWritable> values, Context context)throws IOException, InterruptedException {for (IntWritable value : values) {topRecords.put(value.get(), key.toString());if (topRecords.size() > N) {topRecords.remove(topRecords.firstKey());}}}@Overrideprotected void cleanup(Context context)throws IOException, InterruptedException {// 按降序输出结果for (Integer value : topRecords.descendingKeySet()) {context.write(new Text(topRecords.get(value)), new IntWritable(value));}}
}

package com.hadoop.topn;import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;
import java.util.TreeMap;public class TopNMapper extends Mapper<LongWritable, Text, Text, IntWritable> {private final TreeMap<Integer, String> topRecords = new TreeMap<>();private int N;@Overrideprotected void setup(Context context) {N = context.getConfiguration().getInt("top.n", 10);}@Overridepublic void map(LongWritable key, Text value, Context context)throws IOException, InterruptedException {String[] parts = value.toString().split("\\s+");if (parts.length >= 2) {try {String recordKey = parts[0];int recordValue = Integer.parseInt(parts[1]);topRecords.put(recordValue, recordKey);if (topRecords.size() > N) {topRecords.remove(topRecords.firstKey());}} catch (NumberFormatException e) {// 忽略格式不正确的行}}}@Overrideprotected void cleanup(Context context)throws IOException, InterruptedException {for (Integer value : topRecords.keySet()) {context.write(new Text(topRecords.get(value)), new IntWritable(value));}}
}

package com.hadoop.topn;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class TopNDriver {public static void main(String[] args) throws Exception {if (args.length != 3) {System.err.println("Usage: TopNDriver <input path> <output path> <N>");System.exit(-1);}Configuration conf = new Configuration();conf.setInt("top.n", Integer.parseInt(args[2]));Job job = Job.getInstance(conf, "Top N");job.setJarByClass(TopNDriver.class);job.setMapperClass(TopNMapper.class);job.setReducerClass(TopNReducer.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);FileInputFormat.addInputPath(job, new Path(args[0]));FileOutputFormat.setOutputPath(job, new Path(args[1]));System.exit(job.waitForCompletion(true) ? 0 : 1);}
}

如果代码报红 就这样刷新

 

 二、运行MapReduce作业

准备输入数据

创建一个输入文件 input.txt,内容格式如下:

item1 100
item2 200
item3 150
item4 300
item5 250
item6 180
item7 220
item8 190
item9 210
item10 230
item11 170
item12 240

将输入文件上传到HDFS

前提是要启动hadoop集群

hadoop fs -mkdir -p /user/yourusername/input
hadoop fs -put input.txt /user/yourusername/input
编译打包项目

在项目根目录执行(自动打包):

mvn clean package

也可以手动打包(如果自动打包不行 就手动打包)

导航到 target/classes 目录

cd /HadoopJavaCode/Top_N/Top_N/target/classes
#手动创建JAR文件
jar cvf /HadoopJavaCode/Top_N/Top_N/target/topn-manual-1.0-SNAPSHOT.jar com/

 验证手动打包的 JAR 文件

jar tf /HadoopJavaCode/Top_N/Top_N/target/topn-manual-1.0-SNAPSHOT.jar

 看到类似以下内容为打包成功:

com/hadoop/topn/TopNDriver.class
com/hadoop/topn/TopNMapper.class
com/hadoop/topn/TopNReducer.class

  在运行作业之前,确保输出路径 /user/yourusername/output 不存在。如果路径已存在,可以手动删除:

hadoop fs -rm -r /user/yourusername/output

运行手动打包的 JAR 文件(如果是自动打包的,把目录和jar包进行修改)

hadoop jar /HadoopJavaCode/Top_N/Top_N/target/topn-manual-1.0-SNAPSHOT.jar com.hadoop.topn.TopNDriver /user/yourusername/input /user/yourusername/output 5

查看运行结果

hadoop fs -cat /user/yourusername/output/part-r-00000

 

这样就运行成功啦

http://www.xdnf.cn/news/586945.html

相关文章:

  • 修改 vue-pdf 源码升级 pdfjs-dist 包, 以解决部分 pdf 文件显示花屏问题
  • 基于大模型的胫腓骨干骨折全周期预测与治疗方案研究报告
  • 五分钟学会如何封装Jsckson工具类
  • OpenCV CUDA 模块图像过滤------创建一个高斯滤波器函数createGaussianFilter()
  • Python中的并发编程
  • Java集合框架与三层架构实战指南:从基础到企业级应用
  • OceanBase 系统表查询与元数据查询完全指南
  • 使用web3工具结合fiscobcos网络部署调用智能合约
  • JAVA:柔性一致性策略 BASE 原则
  • tasklet上下文内存分配触发might_alloc检查及同步回收调用链
  • 【C++】笔试强训 第一天
  • 【学习笔记】机器学习(Machine Learning) | 第七章|神经网络(3)
  • 并发编程之线程安全
  • 云原生安全 SaaS :从基础到实践
  • 驱动钛丝(SMA)的应用(5)汽车腰托气阀常见问题及解决方案
  • 101个α因子#23
  • 如何让 Agent 有计划地进行股票数据分析?——基于 DeepSeek 的实战应用
  • linux字符模式关闭光标
  • Linux操作系统:fork+exec进程创建
  • win11远程桌面设置60fps无效
  • 面试题 17.16. 按摩师
  • 软件开发的设计原则
  • 徐少春迎来AI的春天
  • spring中的BeanFactoryAware接口详解
  • 关于我对传统系统机构向大模型架构演进的认知
  • 无线网络优化配置:让你的Wi-Fi更快更稳
  • java: Can‘t generate mapping method with primitive return type
  • 高级SQL技巧:时序数据查询优化与性能调优实战
  • 天文数据处理:基于CUDA的射电望远镜图像实时去噪算法(开源FAST望远镜数据处理代码解析)
  • github cli主要用途,优势,和git的区别