当前位置：首页 > backend >正文

Apache Doris：重塑湖仓一体架构的高效计算引擎

backend 2025/9/3 10:54:42

引言：

在当今数据驱动的时代，企业面临着日益增长的数据分析需求，既要处理海量异构数据，又要实现低延迟的实时分析。湖仓一体架构作为融合数据湖灵活性与数据仓库高效性的新兴模式，正在成为企业数据平台的主流选择。然而，如何解决数据湖查询性能瓶颈与数据仓库存储成本过高的矛盾，成为构建高效湖仓架构的关键挑战。本文将深入解析 Apache Doris 在湖仓一体架构中的核心定位、关键作用以及相较于其他产品的独特优势，揭示其如何成为连接数据湖与数据仓库的 "超级桥梁"。

湖仓一体架构的演进与矛盾

湖仓一体（Lakehouse）架构并非简单的数据湖与数据仓库的叠加，而是通过统一的存储层和计算层，实现了两者优势的有机融合。传统数据湖以低成本、高扩展性著称，支持结构化、半结构化和非结构化数据的存储，但其查询性能尤其是复杂聚合分析能力较弱；数据仓库则以高效的查询性能和完善的数据治理能力见长，但存储成本高且灵活性不足。湖仓一体架构通过引入开放表格式（如 Apache Paimon、Iceberg）作为事务层，在云对象存储之上构建了具备 ACID 特性的数据管理能力，同时保留了数据湖的开放性和扩展性。

然而，在实际落地过程中，湖仓架构仍面临着 "存储与计算" 的核心矛盾。以小米集团为例，其多业务线产生的海量数据需要同时满足实时分析和历史回溯需求，传统架构不得不采用多引擎并存的方式：用 Paimon/Iceberg 存储海量数据，用 Druid 处理实时指标，用 Presto 进行交互式分析，导致数据冗余、口径不一致和运维复杂度激增。这种 "存储多源异构、计算引擎割裂" 的状况，使得数据平台难以同时满足性能、成本和灵活性的要求。

湖仓架构的本质挑战在于存储格式通用性与计算效率专用性之间的天然张力。数据湖格式为适配多引擎读写，必须保持通用性，这在高频查询场景下会带来额外的解析开销；而专用计算引擎虽能优化查询性能，却往往受限于特定存储格式，丧失了灵活性。要突破这一困境，需要一种能够深度融合通用存储与高效计算的技术方案，而 Apache Doris 正是这一方案的关键执行者。

Doris 在湖仓架构中的核心定位

Apache Doris 作为一款高性能 MPP 分析型数据库，在湖仓一体架构中扮演着统一计算引擎与查询加速层的核心角色。它既不是替代数据湖的存储方案，也不是独立于湖仓体系的数据仓库，而是连接两者的 "智能桥梁"，实现了 "存储在湖、计算在仓" 的高效协同模式。

在物理架构上，Doris 位于数据湖存储层（如 Paimon/Iceberg）与业务应用层之间，通过多 Catalog 机制实现对各类数据湖格式的原生支持。从 Doris 1.2 版本引入多 Catalog 特性开始，到 2.1 版本强化对 Paimon 的支持，再到 3.x 版本持续优化数据湖集成能力，Doris 已形成了完善的湖仓对接体系。这种架构设计使 Doris 能够直接访问存储在数据湖中的原始数据，避免了传统架构中数据在湖仓之间冗余复制的问题。

双向赋能是 Doris 湖仓定位的核心特征：一方面，Doris 将数据湖的海量冷数据、全量历史数据保留在 Paimon 等开放格式中，维持低成本存储优势；另一方面，通过物化视图、本地缓存等机制，将高频访问的热数据转换为 Doris 高效的内部存储格式，利用其列存结构、自适应编码和原生索引实现亚秒级查询响应。这种分层存储策略，既解决了数据湖的性能瓶颈，又避免了纯数据仓库方案的存储成本问题。

在小米的实践中，基于 Doris+Paimon 的湖仓架构实现了计算引擎从 4 种精简到 2 种，存储格式从 4 种统一为 2 种，不仅简化了架构复杂度，更通过 Doris 的查询加速能力，使 TPC-DS 1TB 测试集的总体查询性能达到 Trino 的 5 倍。这一案例充分证明了 Doris 作为湖仓计算中枢的关键价值。

Doris 在湖仓场景中的关键作用

Apache Doris 在湖仓一体架构中发挥着多维度的关键作用，涵盖数据访问、查询加速、实时集成和统一管理等多个层面，成为释放湖仓数据价值的核心引擎。

数据湖查询性能加速器

Doris 通过一系列深度优化技术，彻底解决了数据湖查询性能低下的痛点。其核心优化包括：

元数据驱动的智能裁剪：Doris 支持对 Paimon/Iceberg 表的分区、分桶信息进行精准解析，实现谓词下推和数据裁剪，大幅减少扫描数据量。在小米的实践中，这一优化使部分查询的数据扫描量降低 90% 以上。

向量化引擎加速：Doris 采用 C++ 向量化执行引擎，针对 Paimon 的 Merge-on-Read 表和 Deletion Vector 特性进行专门优化，显著提升了更新数据的读取效率。

多级缓存机制：引入本地文件缓存加速热点数据访问，结合内存缓存和 SSD 高速存储，实现不同热度数据的分级加速。

这些优化使得 Doris 在数据湖查询场景中展现出卓越性能。在 Paimon TPC-DS 1TB 测试集上，Doris 的总体查询性能是 Trino 的 5 倍，其中复杂聚合查询性能提升更为显著。

实时数据集成中枢

Doris 通过与 Flink 等流处理引擎的深度集成，构建了湖仓架构中的实时数据通道。基于 Flink Doris Connector 组件，用户可以实现从业务数据库到 Doris 的实时同步，或通过 Flink 将处理后的数据写入 Paimon 数据湖，再由 Doris 进行实时查询加速。这种 "Flink+Paimon+Doris" 的架构实现了真正的流批一体：