当前位置：首页 > ds >正文

spark 执行 hive sql数据丢失

ds 2025/7/24 6:37:59

spark-sql 丢失数据

1.通过spark执行hive sql 的时候，发现 hive 四条数据，spark 执行结果只有两条数据
目标对应的两条数据丢失

select date， user_id， pay from dim.isr_pay_failed where user_id = ‘*******’

hive-sql 结果：
| date | user_id | pay |
| 20250425| d34342343* | 7 |
| 20250425| d34342344* | 7 |
| 202504525| d34342345* | 7 |
| 202504524| d34342346* | 7 |

spark-sql 结果
| 202504525| d34342345* | 7 |
| 202504524| d34342346* | 7 |

原因

表结构很总 user_id 为 CHAR 类型：
CHAR 类型数据在spark 和 hive 中存在如下差异：
Hive 类型 Spark SQL 类型关键差异与注意事项
CHAR 不足补空格。建议通过 TRIM() 或改用 VARCHAR 避免填充问题。
TIMESTAMP TimestampType 时区敏感：Hive 默认使用服务器时区，Spark 需通过 spark.sql.session.timeZone
统一配置。

解决方式

select date， user_id， pay from dim.isr_pay_failed where triim(user_id) = ‘*******’;
问题解决

http://www.xdnf.cn/news/12546.html

相关文章：

89.实现添加收藏的功能的后端实现

04 Deep learning神经网络编程基础梯度下降 --吴恩达

ONLYOFFICE协作空间3.1.1 企业版介绍及部署说明:家庭云计算专家

Git分布式版本控制工具

Grid 布局学习一

有声书画本

刷题记录（7）二叉树

WebRTC源码线程-1

【Mini-F5265-OB开发板试用测评】显示RTC日历时钟

在golang中如何将已安装的依赖降级处理，比如：将 go-ansible/v2@v2.2.0 更换为 go-ansible/@v1.1.7

视频的分片上传，断点上传

Java-IO流之压缩与解压缩流详解

【图片识别Excel】批量提取图片中的文字，图片设置识别区域，识别后将文字提取并保存Excel表格，基于WPF和OCR识别的应用

kubeadm安装k8s

消息队列处理模式：流式与批处理的艺术

新华三H3CNE网络工程师认证—Easy IP

3-12单元格区域边界定位实例(获取最后付款金额和月份)学习笔记

TDengine 替换 Hadoop，彻底解决数据丢失问题！

B站的视频怎么下载下来——Best Video下载器

【Go语言基础【6】】字符串格式化说明

ai流式文字返回前端和php的处理办法

Mac下Android Studio扫描根目录卡死问题记录

从0开始学习R语言--Day18--分类变量关联性检验

python打卡day46@浙大疏锦行

Charles 全流程指南：安装、设置、抓包与注意事项

PDF 转 Markdown

【JVM】Java虚拟机（一）——内存结构