当前位置: 首页 > web >正文

Kafka 的日志清理策略:delete 和 compact

Kafka delete 日志清理策略(日志删除)

  • 原理:按照一定保留策略,直接删除不符合条件的日志分段。Kafka 把 topic 的一个 partition 大文件分成多个小文件段,通过这种方式,能方便地定期清除或删除已消费完的文件,以减少磁盘占用 。
  • 保留策略
    • 按时间删除:设定一个时间阈值,删除修改时间在该时间之前的日志。比如设置log.retention.hours = 1 ,就表示只保存 1 小时内的日志,超出 1 小时的日志分段会被删除。
    • 按大小删除:指定一个数据大小阈值,当日志数据超过这个大小时,执行删除操作,保留最后的指定大小数据。例如log.retention.bytes = 1073741824 (即 1GB ),表示日志数据超过 1GB 时,会删除旧的消息。
  • 相关参数
    • log.cleanup.policy = delete :启用删除策略。
    • log.retention.check.interval.ms :专门的日志删除任务周期性检测的时间间隔,默认 300000ms(5 分钟 ),即每隔 5 分钟检查一次是否有符合删除条件的日志分段 。
    • log.retention.hours :按时间清理时,指定日志保留的小时数 。
    • log.retention.bytes :按大小清理时,指定日志保留的字节数 。需注意log.retention.byteslog.retention.hours任意一个达到要求,都会执行删除操作,且会被 topic 创建时的指定参数覆盖 。

Kafka compact 日志清理策略(日志压缩)

  • 原理:针对每个消息的 key 进行整合,对于有相同 key 的不同 value 值,只保留最后一个版本 。就像在一个记录集合里,相同标识(key )的记录,只留下最新的那条 。比如一个 key 对应的值先后为 “值 1”“值 2”“值 3” ,经过日志压缩后,只会保留 “值 3” 。清理重复 key 后,一些 segment 文件大小会变小,Kafka 会将小文件再合并成大的 segment 文件 。
  • 特殊处理:当某个 key 的最新版本消息没有内容(value 为 null )时,这个 key 将被删除,这类消息被称为 “墓碑消息(tombstone )” 。墓碑消息的存放时间和 broker 的配置log.cleaner.delete.retention.ms有关,默认值是 24 小时 。在执行日志清理时,会删除到期的墓碑消息 。
  • 清理流程
    • 对于每个 Kafka partition 的日志,以 segment 为单位,分为已清理和未清理部分,未清理部分又细分为可清理和不可清理的。
    • 每个日志目录下有cleaner - offset - checkpoint文件记录清理进度。
    • 找出可清理的 segment(active segment 不能清理,根据min.compaction.lag.ms配置判断其他 segment 是否能清理 ,即判断 segment 最后一条记录的插入时间是否超过最小保留时间 )。
    • 构建 SkimpyOffsetMap 对象(key 与 offset 的映射哈希表 ),遍历可清理 segment 的每条日志,将 key 和 offset 存入其中。
    • 再遍历已清理和可清理部分的 segment 日志,根据 SkimpyOffsetMap 判断是否保留日志 。
    • 执行清理操作,将可清理部分的 segment 变为已清理的,同时更新 cleaner checkpoint 记录的 offset 。
  • 相关参数
    • log.cleaner.enable = true :开启日志压缩功能。
    • log.cleanup.policy = compact :启用日志压缩策略 。
    • min.compaction.lag.ms :设置日志段中消息可被压缩的最小时间间隔 ,确保消息存留一定时间后才可能被清理 。
    • log.cleaner.delete.retention.ms :墓碑消息的保留时长 。
http://www.xdnf.cn/news/8867.html

相关文章:

  • 【windows】终端/命令行显示中文乱码
  • TCP/IP 协议族
  • 人工智能数学基础实验(一):智能推荐系统实战
  • GPU基础知识
  • 06-Web后端基础(java操作数据库)
  • 套索回归与岭回归通俗讲解
  • React从基础入门到高级实战:React 核心技术 - React Router:路由管理
  • 在机器学习中,L2正则化为什么能够缓过拟合?为何正则化等机制能够使一个“过度拟合训练集”的模型展现出更优的泛化性能?正则化
  • 万能密码登录-Post型注入攻击
  • 【AI智能体】Spring AI Tool 从使用到实战详解
  • Function Calling、MCP、A2A:解锁 AI 能力的三大核心技术对比
  • CSS之元素定位
  • 基于Spring Boot的高校科研绩效管理的设计与实现
  • 图解 | 大模型智能体LLM Agents
  • 购物车系统的模块化设计:从加载到结算的全流程拆解
  • 计算机视觉应用 Slot Attention
  • 符合Python风格的对象(覆盖类属性)
  • Python60日基础学习打卡D35
  • Redis 3.0~8.0特性与数据结构全面解析
  • springboot service层无法注入mapper 解决
  • 信奥赛CSP小学五年级动态规划入门
  • Agent模型微调
  • Android应用中设置非系统默认语言(java)
  • 基于Python的全卷积网络(FCN)实现路径损耗预测
  • 网络安全--PHP第二天
  • 【前端设计模式讲解】工厂模式
  • lc hot 100之:多数元素
  • PPT连同备注页(演讲者模式)一块转为PDF
  • 计算机视觉(图像算法工程师)学习路线
  • 有趣有用的小发现