DataHub 架构设计与模块规划
1. 概述
DataHub 作为一个开源的元数据管理平台,致力于解决现代数据栈中元数据发现、协作、治理和可观测性等挑战。通过对 DataHub 的 GitHub 仓库代码和官方文档的综合研究,本报告将提供一个全面的概述,帮助读者更好地理解 DataHub 的内部机制及其可扩展性。
2. DataHub 架构设计
DataHub 采用了一种先进的第三代数据目录架构,其设计理念围绕着“模型优先”和“流式实时元数据管理”展开,旨在实现不同工具和系统之间的互操作性。其核心架构亮点包括:
2.1. 架构概览
DataHub 的高层架构由多个核心组件构成,共同协作以实现元数据的摄取、存储、索引、查询和展示。其设计强调可扩展性和实时性,能够适应不断变化的数据生态系统。
2.2. 架构亮点
2.2.1. 模式优先的元数据建模 (Schema-first approach to Metadata Modeling)
DataHub 的元数据模型使用一种与序列化无关的语言进行描述。这意味着元数据模型是独立于其传输或存储格式定义的,从而提供了极大的灵活性和互操作性。DataHub 支持 REST 和 GraphQL API,同时也支持基于 Kafka 的 AVRO API,用于元数据变更的通信和订阅。这种模式优先的方法确保了元数据的强类型和一致性,为数据治理和