当前位置：首页 > ds >正文

数据清洗ETL

ds 2025/7/3 16:53:09

ETL介绍

“ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程。ETL一词较常用在数据仓库，但其对象并不限于数据仓库。

在Transform的过程中，我们经常会做数据清洗这个操作。它是指对采集到的原始数据进行预处理，以去除错误、重复、不完整或不一致的数据，使数据符合分析要求的过程。它在整个数据分析和数据处理流程中处于非常重要的位置，因为数据质量的好坏直接影响到后续分析结果的准确性和可靠性。

清理的过程往往只需要运行Mapper程序，不需要运行Reduce程序。

实现代码

在之前的项目的基础之上，重写去写一个包，并创建两个类：WebLogMapper和WebLogDriver类。

（1）编写WebLogMapper类

package com.root.mapreduce.weblog;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

public class WebLogMapper extends Mapper<LongWritable, Text, Text, NullWritable>{

@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
// 1. 获取一行数据,使用空格进行拆分，判断是否有8个字段
String[] fields = value.toString().split(" ");
if (fields.length > 7) {
// 这条数据是有意义的,保留
System.out.println(fields[0]);
context.write(value, NullWritable.get());
}
}

}

代码说明：NullWritable就等价于null，context.write(value,NullWritable.get())就表示只有key，没有value。

（2）编写WebLogDriver类

package com.root.mapreduce.weblog;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WebLogDriver {