当前位置: 首页 > ds >正文

spark 执行 hive sql数据丢失

spark-sql 丢失数据

1.通过spark执行hive sql 的时候,发现 hive 四条数据,spark 执行结果只有两条数据
目标对应的两条数据丢失

select date, user_id, pay from dim.isr_pay_failed where user_id = ‘*******’

hive-sql 结果:
| date | user_id | pay |
| 20250425| d34342343* | 7 |
| 20250425| d34342344* | 7 |
| 202504525| d34342345* | 7 |
| 202504524| d34342346* | 7 |

spark-sql 结果
| 202504525| d34342345* | 7 |
| 202504524| d34342346* | 7 |

原因

表结构很总 user_id 为 CHAR 类型:
CHAR 类型数据在spark 和 hive 中存在如下差异:
Hive 类型 Spark SQL 类型 关键差异与注意事项
CHAR 不足补空格。建议通过 TRIM() 或改用 VARCHAR 避免填充问题。
TIMESTAMP TimestampType 时区敏感:Hive 默认使用服务器时区,Spark 需通过 spark.sql.session.timeZone
统一配置。

解决方式

select date, user_id, pay from dim.isr_pay_failed where triim(user_id) = ‘*******’;
问题解决

http://www.xdnf.cn/news/12546.html

相关文章:

  • 89.实现添加收藏的功能的后端实现
  • 04 Deep learning神经网络编程基础 梯度下降 --吴恩达
  • ONLYOFFICE协作空间3.1.1 企业版 介绍及部署说明:家庭云计算专家
  • Git分布式版本控制工具
  • Grid 布局学习一
  • 矩阵QR分解
  • 有声书画本
  • 刷题记录(7)二叉树
  • WebRTC源码线程-1
  • 【Mini-F5265-OB开发板试用测评】显示RTC日历时钟
  • 在golang中如何将已安装的依赖降级处理,比如:将 go-ansible/v2@v2.2.0 更换为 go-ansible/@v1.1.7
  • 视频的分片上传,断点上传
  • Java-IO流之压缩与解压缩流详解
  • 【图片识别Excel】批量提取图片中的文字,图片设置识别区域,识别后将文字提取并保存Excel表格,基于WPF和OCR识别的应用
  • kubeadm安装k8s
  • 消息队列处理模式:流式与批处理的艺术
  • 新华三H3CNE网络工程师认证—Easy IP
  • 3-12单元格区域边界定位实例(获取最后付款金额和月份)学习笔记
  • TDengine 替换 Hadoop,彻底解决数据丢失问题 !
  • B站的视频怎么下载下来——Best Video下载器
  • redis哨兵
  • Day46
  • 【Go语言基础【6】】字符串格式化说明
  • ai流式文字返回前端和php的处理办法
  • Mac下Android Studio扫描根目录卡死问题记录
  • 从0开始学习R语言--Day18--分类变量关联性检验
  • python打卡day46@浙大疏锦行
  • Charles 全流程指南:安装、设置、抓包与注意事项
  • PDF 转 Markdown
  • 【JVM】Java虚拟机(一)——内存结构