当前位置: 首页 > ops >正文

为什么badmin reconfig以后始终不能提交任务

最近遇到的怪事:修改了openlava配置以后运行badmin reconfig激活配置变更,但是长时间始终不能提交任务。

首先查看进程,发现openlava管理节点上的所有服务进程都在运行状态;查看mbd日志没有发现错误信息;再看mbd进程的系统调用(strace -p mbd_pid)发现始终在读取lsb.events文件;再通过gdb -p mbd_pid 查看调用栈发现 读取lsb.events的行号始终在增长。再通过wc -l lsb.events发现文件有2500000+行数据,至此不能提交任务的原因比较清楚了,MBD一直忙于恢复集群状态,在状态恢复之前不会响应其它请求,包括提交任务、查询等。

终于在一个多小时的等待后集群恢复正常。

进一步查看集群配置,发现CLEAN_PERIOD参数设为7天,从而导致大量任务保存在lsb.events文件中。而reconfig是其实是重启MBD服务,MBD在重启过程中首先要读取lsb.events中的记录,根据读取的记录恢复集群状态。

因此要解决此问题,可行的方法就是减少CLEAN_PERIOD,建议保持默认值3600秒。

http://www.xdnf.cn/news/10309.html

相关文章:

  • PyTorch——DataLoader的使用
  • 第6节 Node.js 回调函数
  • iOS —— UI 初探
  • slider滑块async await
  • 使用BERT/BiLSTM + CRF 模型进行NER进展记录~
  • LangChain-结合GLM+SQL+函数调用实现数据库查询(三)
  • 机器学习算法-逻辑回归
  • AWS之数据分析
  • Spring Boot 中的 Web 应用与 Reactive Web 应用
  • 上海工作机会:Technical Writer Senior Technical Writer - 中微半导体设备
  • 性能优化 - 案例篇:缓存
  • Linux《文件系统》
  • 鸿蒙OS在UniApp中集成Three.js:打造跨平台3D可视化应用#三方框架 #Uniapp
  • 深入理解享元模式:用Java实现高效对象共享
  • LeetCode算法题 (搜索二维矩阵)Day18!!!C/C++
  • 基于Android的跳蚤市场_springboot+vue
  • 【金融基础学习】债券回购方式
  • 鸿蒙OSUniApp开发跨平台AR扫描识别应用:HarmonyOS实践指南#三方框架 #Uniapp
  • 嵌入式硬件篇---蜂鸣器
  • 常见相机的ISP算法
  • 设计模式——观察者设计模式(行为型)
  • NodeJS全栈开发面试题讲解——P5前端能力(React/Vue + API调用)
  • C#语音识别:使用Whisper.net实现语音识别
  • 从0开始学vue:Element Plus详解
  • 【算法应用】虚拟力算法VFA用于WSN覆盖,无人机网络覆盖问题
  • 《深度解构现代云原生微服务架构的七大支柱》
  • PyTorch ——torchvision数据集使用
  • 汽车安全 2030 预测 (功能安全FuSa、预期功能安全SOTIF、网络安全CyberSecurity):成本、效益与行业影响
  • gin 框架
  • C++内存学习