当前位置: 首页 > news >正文

Starrocks的主键表涉及到的MOR Delete+Insert更新策略

背景

写这个文章的作用主要是做一些总结和梳理,特别是正对大数据场景下的实时写入更新策略 COWMOR 以及 Delete+Insert 的技术策略的演进,
这也适用于其他大数据的计算存储系统。该文章主要参考了Primary Key table.

分析总结

Starrocks 的主键表主要是用来加速实时更新的效率,以及在做Adhoc查询的时候能够加速查询速度。在paimon等数据表格式中,一开始都是采用的MOR的策略来达到实时写入的目的,但是在读取的时候,就得进行合并的操作才能获取真正的数据,这种方式虽然能加速数据的写入速度,但是在读取的时候就会比较慢,采用Delete+Insert的方式,只会在写入的时候在DelVector增加一个标志位,读取的时候,只读最新的数据即可。大大的缩短了,数据读取的时间。

Starrocks的Unique表和Aggreate表采用的是 MOR 的策略,这个会存在读放大的问题。除此之外,由于存在Merge操作,谓词和索引也不能下推到底层的数据源中,即使下推了,也不能起到过滤的作用,这个严重的影响到了查询的效率。

对于Starrocks的主键索引,读写主键表的路程如下(参考Starrocks的官方文档):

  • 对于写: Starrocks 先把对应的tablets的主键索引加载到内存,对于删除操作,Starrocks首先使用主键索引找到每行对应的数据位置,并在DelVector中把数据行标记为删除。对于更新操作,会转换为Delete + insert操作,除了在DelVector增加删除标志外,还会写入最新的数据,同时主键索引也会被更新。
    在这里插入图片描述

  • 对于读: 由于历史的数据在写入的时候,已经被标志为了删除,所以只需要读取主键索引对应的信息就可以了,历史数据不需要再进行合并了。并且当底层的数据扫描的时候,可以利用谓词以及各种索引去减少扫描的数据量。因此查询性能得到大大的提升。
    在这里插入图片描述

注意:

  1. DelVector 是 Rowset 级别的
  2. 主键索引会记录pk到rowsetId + segementId + rowId的映射关系
http://www.xdnf.cn/news/419275.html

相关文章:

  • 2025年化学工程与材料物理国际会议(CEMP 2025)
  • [学习] RTKLib详解:qzslex.c、rcvraw.c与solution.c
  • 移动端前端开发调试工具/webkit调试工具/小程序调试工具WebDebugX使用教程
  • OpenCV的CUDA模块进行图像处理
  • 文件相关操作
  • 通过QPS和并发数定位问题
  • 网络体系结构(OSI,TCP/IP)
  • 3.4 数字特征
  • 关于网站提交搜索引擎
  • 【Cesium入门教程】第七课:Primitive图元
  • 算法备案部分咨询问题解答第三期
  • leetcode-hot-100 (滑动窗口)
  • Windows部署LatentSync唇形同步(字节跳动北京交通大学联合开源)
  • 【Redis 进阶】缓存
  • 3.3 阶数的作用
  • 基于机器学习的卫星钟差预测方法研究HPSO-BP
  • Java【10_1】用户注册登录(面向过程与面向对象)
  • Spring Boot配置文件
  • Vue2 elementUI 二次封装命令式表单弹框组件
  • InternVL3: 利用AI处理文本、图像、视频、OCR和数据分析
  • docker部署WeDataSphere开源大数据平台
  • 【人工智能】自然语言编程革命:腾讯云CodeBuddy实战5步搭建客户管理系统,效率飙升90%
  • 论软件设计模式及其应用
  • EXCEL Python 实现绘制柱状线型组合图和树状图(包含数据透视表)
  • 工程类论文查重困局破解:基于知识图谱的跨学科语义重构技术实证研究
  • java复习笔记-面向对象
  • 速卖通如何低成本测评,让店铺流量与销量双提升
  • MapReduce基本介绍
  • 原生小程序+springboot+vue医院医患纠纷管理系统的设计与开发(程序+论文+讲解+安装+售后)
  • 内存中的“BANK”