当前位置: 首页 > backend >正文

hive小文件问题

以此表为例子

CREATE TABLE `saylo.t_saylo_user_feature`(`user_id` string, `session_id` string, `value` string)
PARTITIONED BY ( `app_id` string, `datetime` timestamp)
ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io.orc.OrcSerde' 
STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat' 
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat'
TBLPROPERTIES ('hive.merge.size.per.task'='256000000', 'hive.merge.smallfiles.avgsize'='16000000', 'hive.merge.sparkfiles'='true')

1. SERDE

建议使用Orc,读写性能更好

2. 文件大小

‘hive.merge.size.per.task’=‘256000000’, 最大文件大小,影响最终的文件个数
‘hive.merge.smallfiles.avgsize’=‘16000000’, 触发合并的最小文件大小

3. 文件合并

INSERT OVERWRITE TABLE t_saylo_user_feature PARTITION(app_id=‘30005’,datetime=‘2025-07-09 00:00:00’)
SELECT user_id,session_id,value FROM t_saylo_user_feature
WHERE app_id=‘30005’ AND datetime=‘2025-07-09 00:00:00’;

或者
ALTER TABLE t_saylo_user_feature_test PARTITION(app_id=‘30005’,datetime=‘2025-07-03 20:00:00’) CONCATENATE;

http://www.xdnf.cn/news/15127.html

相关文章:

  • requestIdleCallback:解锁浏览器空闲时段的性能优化艺术
  • MatrixOne Intelligence v3.3 正式发布:结构化、自动化、可视化三重进化
  • 二分查找篇——寻找旋转排序数组中的最小值【LeetCode】
  • Spring Boot项目中大文件上传的优化策略与实践
  • C++的类中的虚拟继承【底层剖析(配图解)】
  • Android 13----在framworks层映射一个物理按键
  • SQL的初步学习(一)(以MySQL为例)
  • wpf使用webview2显示网页内容(最低兼容.net framework4.5.2)
  • 相机:以鼠标点为中心缩放(使用OpenGL+QT开发三维CAD)
  • 关于在html页面利用js操作liMarquee以及解决使用过程中出现的问题,附全屏切换相关代码
  • LINUX710 MYSQL
  • Oracle大表数据清理优化与注意事项详解
  • 深入理解机器学习
  • 无人机识别比赛记录与分析
  • CentOs 7 MySql8.0.23之前的版本主从复制
  • ESP32- 项目应用1 智能手表 #1
  • 2025.07.09华为机考真题解析-第三题300分
  • 开源!RAG竞技场(3):语义分割的RAG(Semantic Chunking RAG)
  • 解释sync.WaitGroup的用途和工作原理。在什么情况下应该使用它?
  • XSS(ctfshow)
  • Camera2API笔记
  • 创建本地软件仓库(rhel7与rhel9)
  • [C#] 使用TextBox换行失败的原因与解决方案:换用RichTextBox的实战经验
  • JavaScript 树形菜单总结
  • Datawhale AI 夏令营:基于带货视频评论的用户洞察挑战赛 Notebook(下篇)
  • git中的fork指令解释
  • 第1讲:C语言常见概念
  • 【NVIDIA-H100-UFM故障分析实战】GPU 节点反复 “掉线又上线“?300 条日志揪出 InfiniBand 链路抖动真凶
  • SYM32第二十天 ESP8266-01S和电脑实现串口通信(3)
  • 深入理解Java虚拟机:Java内存区域与内存溢出异常