当前位置：首页 > backend >正文

数据压缩实现案例

backend 2025/7/2 14:32:43

在driver中修改代码

package com.root.mapreduce.compress;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.io.compress.BZip2Codec;

import org.apache.hadoop.io.compress.CompressionCodec;

import org.apache.hadoop.io.compress.GzipCodec;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCountDriver {

public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

Configuration conf = new Configuration();

// 开启map端输出压缩

conf.setBoolean("mapreduce.map.output.compress", true);

// 设置map端输出压缩方式

conf.setClass("mapreduce.map.output.compress.codec", BZip2Codec.class,CompressionCodec.class);

Job job = Job.getInstance(conf);

// 省略其他.....

System.exit(result ? 0 : 1);

}

其他的Mapper和Reducer代码保持不变。

运行之后，发现输出的结果格式没有变化，因为它是中间过程。

压缩实操案例2-Reduce输出端采用压缩

基于WordCount案例，只需要在dirvier类的代码中，去设置在reduce端输出压缩开启，并设置压缩的方式即可。

对应的代码有如下两行，其他的代码不动。

// 设置reduce端输出压缩开启

FileOutputFormat.setCompressOutput(job, true);

// 设置压缩的方式
// FileOutputFormat.setOutputCompressorClass(job, BZip2Codec.class);

        FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class);
         // FileOutputFormat.setOutputCompressorClass(job, DefaultCodec.class);

boolean result = job.waitForCompletion(true);
         System.exit(result?0:1);

}

其他的Mapper和Reducer代码保持不变。

运行代码之后，是否在输出结果中看到了压缩的格式。

查看全文

http://www.xdnf.cn/news/4558.html

以pytest_addoption 为例，讲解pytest框架中钩子函数的应用

RAG技术体系问题的系统性总结

C++并发编程完全指南：从基础到实践

BBDM学习笔记

Spring Boot 中 AOP 的自动装配原理

C语言复习笔记--自定义类型

Nacos源码—5.Nacos配置中心实现分析二

QT高级（1）QTableView自定义委托集合，一个类实现若干委托

第35周Zookkeeper+Dubbo Dubbo

【前端笔记】CSS 选择器的常见用法

Cron 用法

数据管道的解耦艺术：Dagster I/O管理器实现存储与逻辑分离

第二章：MySQL 索引优化与高级应用

python的异常处理

CODESYS开发环境下的快捷键和软件操作汇总

《C++ Templates》：有关const、引用、指针的一些函数模板实参推导的例子

互联网大厂Java求职面试：AI集成与云原生架构设计

Go 面向对象，封装、继承、多态

拆解 Prompt 工程：五大场景驱动 DeepSeek 超越 ChatGPT

AUTOSAR图解==＞AUTOSAR_SWS_WirelessEthernetTransceiverDriver

相关文章：