当前位置: 首页 > ops >正文

数据清洗-案例

四)实现代码

在之前的项目的基础之上,重写去写一个包,并创建两个类:WebLogMapper和WebLogDriver类。

(1)编写WebLogMapper类

package com.root.mapreduce.weblog;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

public class WebLogMapper extends Mapper<LongWritable, Text, Text, NullWritable>{

@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
    // 1. 获取一行数据,使用空格进行拆分,判断是否有8个字段
    String[] fields = value.toString().split(" ");
    if (fields.length > 7) {
        // 这条数据是有意义的,保留
        System.out.println(fields[0]);
        context.write(value, NullWritable.get());
    }
   }

}

代码说明:NullWritable就等价于null,context.write(value,NullWritable.get())就表示只有key,没有value。

(2)编写WebLogDriver类

package com.root.mapreduce.weblog;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WebLogDriver {

public static void main(String[] args) throws Exception {

// 1 获取job信息

Configuration conf = new Configuration();

Job job = Job.getInstance(conf);

// 2 加载jar包

job.setJarByClass(LogDriver.class);

// 3 关联map

job.setMapperClass(WebLogMapper.class);

// 4 设置最终输出类型

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(NullWritable.class);

// 设置reducetask个数为0

job.setNumReduceTasks(0);

// 5 设置输入和输出路径
         FileInputFormat.setInputPaths(job, new Path("E:\\vm\\web.log"));
         FileOutputFormat.setOutputPath(job, new Path("E:\\vm\\ouput2"));

// 6 提交

         boolean b = job.waitForCompletion(true);

         System.exit(b ? 0 : 1);

}

}
————————————————

                            版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
                        
原文链接:https://blog.csdn.net/2401_87076736/article/details/147925073

http://www.xdnf.cn/news/7132.html

相关文章:

  • 浅谈迷宫类问题中的BFS和DFS
  • 【算法剖析】产值调整:从迭代到收敛,洞悉数字变化的本质
  • 【MySQL】(12) 事务
  • Java大师成长计划之第26天:Spring生态与微服务架构之消息驱动的微服务
  • 基于YOLOv8-OBB的旋转目标检测:从数据制作到自动标注完整指南
  • RAG检索增强生成(持续更新ing...)
  • vLLM - 控制生成过程中返回对数概率信息 logprobs的输出和解释
  • 计算机软件的基本组成
  • 本地无损放大软件-realesrgan-gui
  • AI 制作游戏美术素材流程分享(程序员方向粗糙版)
  • 计算机网络 - 2.基础协议
  • 日志参数含义
  • 等 级 保 护
  • 一文掌握工业相机选型计算
  • Spring Cloud Alibaba Nacos安装+服务注册中心+服务配置中心
  • SOC-ESP32S3部分:0、什么是ESP32
  • 创建型:原型模式
  • 【每天一个知识点】湖仓一体(Data Lakehouse)
  • Vibe Coding:编程中的氛围与效率的艺术
  • 【数据结构】堆
  • BUUCTF——ReadlezPHP
  • KnowCard:我的知识卡片生成器是怎么炼成的?
  • 高能数造闪耀 CIBF 2025,以创新技术引领新能源智造新征程
  • Android 自定义悬浮拖动吸附按钮
  • MyBatis 延迟加载与缓存
  • 【时时三省】(C语言基础)数组习题
  • Linux虚拟文件系统(1)
  • 《沙尘暴》观影记:当家庭成为人性的修罗场
  • 记录一次修改nacos安全问题导致服务调用出现404
  • 【Canvas与诗词】醉里挑灯看剑 梦回吹角连营