当前位置: 首页 > web >正文

开源组件hive调优

  1. bugs归纳

工具

现象

对应bugs

目前解决方案

详情

hive3.1.2

登录 · 扁鹊健康科技

内存只升不降,最终进程挂断

[HIVE-22275] OperationManager.queryIdOperation does not properly clean up multiple queryIds - ASF JIRA

HIVE-26530

HIVE-24179

HIVE-19860

定时挂断自起(临时)

operation.OperationManager的多个adding,只会remove最后一个

多表join丢数据(已解决)

[HIVE-22098] Data loss occurs when multiple tables are join with different bucket_version - ASF JIRA

HIVE-21304

手动增加临时表指定bucketVersion-》打补丁

三个表联接。第一个表中的table_a和第二个表中的table_b的临时结果数据连接结果记录为tmp_a_b,当它与第三个表连接时,hive-3.0.0后默认创建的表的 bucket_version=2,临时数据tmp_a_b初始化了 bucketVerison=-1,然后连接了 ReduceSinkOperator Verketison=-1。在 init 方法中,根据 bucketVersion 选择 join 列的哈希算法。如果 bucketVersion = 2 并且不是 acid 操作,则将获得新的哈希算法。否则,将获得哈希的旧算法。由于哈希算法的不一致,导致的数据分配分区不同。在Reducer阶段,具有相同键的数据无法配对,导致数据丢失。

每日调度随机出现以下报错,但可通过多次重试执行成功

dolphinscheduler调度常见问题_org.apache.dolphinscheduler.plugin.task.api.taskex-CSDN博客

重试

  1. TTransport:SocketTimeout:Read time out

  1. SQL task prepareStatementAndBind

dolphinscheduler2.0.6

传参偶发性失效

https://github.com/apache/dolphinscheduler/issues/9745

'${bizdate}'->'${yyyyMMdd-1}'

(临时)

由于多线程的影响,解析setValue语法的线程可能无法及时解析,导致varpool缺失。

当工作流同时启动多个工作线程时,会在另一个线程中解析setValue语法,有些工作会在解析setValue线程完成之前就已经完成了。

临时计划是等待getLogoutputService完成,然后进行下一步

无法停止的工作流以及版本切换出现:切换工作流版本出错。

https://github.com/apache/dolphinscheduler/issues/835

删掉僵尸元数据

在dolphinsscheduler对应的数据库中,查询t_ds_task_definition_log、t_ds_task_definition表

SELECT code ,version,COUNT(*) cnt from t_ds_task_definition_log group by code ,version order by cnt desc

http://www.xdnf.cn/news/13964.html

相关文章:

  • Android 12.0 第三方应用左右两侧未全屏有黑边问题解决
  • 手机IP地址更换的影响与方法
  • 分享| 低代码建模工具-大数据挖掘建模平台白皮书
  • 中国老年健康调查(CLHLS)数据挖掘教程(1)--CLHLS简介和数据下载
  • C++11可变参数模板从入门到精通
  • 【报错解决】Java 连接https报错「javax.net.ssl.SSLHandshakeException」怎么破?看这篇!
  • Kubernetes安全机制深度解析(一):从身份认证到资源鉴权
  • 京东开放平台获取京东商品详情API接口操作解答
  • opencl的简单介绍以及c++实例
  • echarts中给饼图加圆点
  • 从怀疑到依赖:CodeRider 2.0 如何重塑我的编程日常
  • 关于深度学习网络中的归一化BN
  • 玩转 Databend UDF
  • 巢 湖 流 域
  • 一[1]、ubuntu18.04 安装yolov8 + 实际测试
  • 1394B 模块 EP-H6277 使用指南
  • 国产最高性能USRP SDR平台:国产USRP X440 PRO, 搭载UltraScale+ XCZU48DR芯片
  • 如何将一个url地址打包成一个windows桌面版本的应用程序
  • 火山引擎扣子的具体作用
  • Dagster 构建可靠数据体系:从挑战到解决方案的完整路径
  • uniswap v4 TickBitmap库函数解析
  • git报错fatal: 远端意外挂断了
  • 利用亚马逊 API 实现商品详情实时数据采集(开发接入示例)
  • 价格性价比高系列的高性能单片机MS32C001-C
  • 多设备联动,canopen转Ethercat网关设备接入国产 PLC 控制系统方案落地
  • 将python脚本打包进docker
  • Java并发编程实战 Day 20:响应式编程与并发
  • STM32F103x6启动代码的详细分析
  • 如何在python中实现简单的app自动化测试框架?
  • 梯度下降相关