当前位置：首页 > ops >正文

Hive on Tez/Spark 执行引擎对比与优化

ops 2025/9/7 7:13:21

在大数据开发中，Hive 已经成为最常用的数据仓库工具之一。随着业务数据规模的不断扩大，Hive 默认的 MapReduce 执行引擎 显得笨重低效。为了提升查询性能，Hive 支持了 Tez 和 Spark 作为底层执行引擎。本文将带你对比 Hive on Tez 与 Hive on Spark 的区别，并分享调优经验。

一、Hive 执行引擎的发展历程

Hive on MapReduce（早期默认）
- 基于 MR 执行，稳定但速度慢；
- 每个 SQL 查询都需要多个 MR Job，启动开销大。
Hive on Tez（Apache Tez）
- MapReduce 的改进版，采用有向无环图（DAG）模型；
- 避免了不必要的中间结果落盘，性能显著提升。
Hive on Spark
- 利用 Spark 的内存计算优势；
- 更适合复杂 SQL 与交互式查询。

二、Hive on Tez 与 Hi

http://www.xdnf.cn/news/20188.html

相关文章：

AI浪潮下，人类创造力的“危”与“机”

2026届大数据毕业设计选题推荐-基于大数据旅游数据分析与推荐系统爬虫数据可视化分析

JAVA基本文件操作

【74页PPT】MES简介（附下载方式）

TensorFlow 面试题及详细答案 120道（101-110）-- 底层原理与扩展

C++笔记之软件设计原则总结

Lua ＞ Mac Mini M4安装openresty

基于Transformer 实现车辆检测与车牌识别（一）

disable CASCADE主键失败 ORA-2297 And ORA-2433

MCAP ：机器人数据容器的全面实践指南

区块链是什么

UE5 图表、函数与宏的区别与选择（蓝图折叠功能详解）

【iOS】push 和 present

什么时候用no，什么时候用non，什么时候用not？

京东商品属性API数据解析：颜色、尺寸与材质

【代码随想录算法训练营——Day4】链表——24.两两交换链表中的节点、19.删除链表的倒数第N个节点、面试题02.07.链表相交、142.环形链表II

操作系统基本概念.1

Day 47 注意力热图可视化

工作后的总结和反思4

SQL 入门指南：排序与分页查询（ORDER BY 多字段排序、LIMIT 分页实战）

使用Shell脚本实现Linux系统资源监控邮件告警

永磁同步电机 FOC 控制中 d、q 轴杂谈与角度偏移影响

使用Ansible自动化部署Hadoop集群（含源码）--环境准备

【Android】ViewPager2结合Fragment实现多页面滑动切换

百度竞价推广：搜索竞价信息流推广代运营

ElementUI之Upload 上传的使用

C++语法之--多态

Ubuntu：Git SSH密钥配置的完整流程

捷多邦揭秘超厚铜板：从制造工艺到设计关键环节