当前位置：首页 > news >正文

DataHub 架构设计与核心工作原理

news 2025/6/15 5:32:05

1. 整体架构设计

DataHub 是一个第三代数据目录系统，专为现代数据栈设计，支持数据发现、协作、治理和端到端可观测性。其架构采用模型优先的设计理念，注重不同工具和系统之间的互操作性。

1.1 架构总览

DataHub 的整体架构可以分为以下几个主要层次：

前端层：React 实现的 Web UI 和 Play Framework 实现的前端服务
API 层：GraphQL API 和 REST API
服务层：元数据服务 (Metadata Service)
存储层：文档存储 (MySQL/PostgreSQL)、搜索索引 (Elasticsearch) 和图索引 (Neo4j/MySQL)
事件层：基于 Kafka 的元数据事件流
摄取层：Python 实现的元数据摄取框架

架构总览

1.2 架构亮点

DataHub 架构的三个主要亮点：

Schema-first 元数据建模：使用序列化无关的语言 (PDL) 描述元数据模型，支持 REST 和 GraphQL API，以及基于 AVRO 的 Kafka 事件通信。
基于流的实时元数据管理平台：元数据基础设施采用流式设计，使元数据变更能在几秒内反映到平台中，并允许订阅元数据变更事件。
联邦式元数据服务：支持由不同团队拥有和运营的联邦元数据服务，通过 Kafka 与中央搜索索引和图进行通信，支持全局搜索和发现。

2. 核心组件工作原理

2.1 元数据存储 (Metadata Store)

元数据存储负责存储构成元数据图的实体 (Entities) 和方面 (Aspects)，提供 API 用于摄取元数据、按主键获取元数据、搜索实体和获取实体间关系。

技术实现：

Spring Java 服务托管一组 Rest.li API 端点
MySQL 作为主要存储
Elasticsearch 用于搜索索引
Kafka 用于事件流通信

主要功能：

元数据的 CRUD 操作
主键查询
全文搜索
关系查询（如血缘关系）

2.2 元数据模型 (Metadat

http://www.xdnf.cn/news/1031959.html

相关文章：

Hive SQL：一小时快速入门指南

第五章决策树

关于凸轮的相位角计算

16 celery集成其他工具

Blender 案例及基础知识点

LIN通信错误 CSError（ invalid checksum）

Element Plus 去除下拉菜单周黑边

34-Oracle 23 ai 示例数据库部署指南、脚本获取、验证与实操（兼容19c）

嵌入式开发中fmacro-prefix-map选项解析

linux驱动开发（9）- 信号量

《Elasticsearch 分布式搜索在聊天记录检索中的深度优化》

驱动程序无法通过使用安全套接字层(SSL)加密与 SQL Server 建立安全连接,

【Elasticsearch】分词机制详解（含实战案例）

[学习] FIR多项滤波器的数学原理详解：从多相分解到高效实现（完整仿真代码）

【FineDance】训练：accelerate config 的作用

tshark命令行语法详解

量化面试绿皮书：13. 贴错标签的袋子

Python爬虫实战：研究simpleq相关技术

同步与异步编程范式全景研究——从CPU时钟周期到云原生架构的范式演进

Windows平台进程加速方案研究：以网盘下载优化为例

再参数化视角下的批量归一化：缩放平移操作的本质意义

ESP32-S3 学习之旅开篇：课程与芯片基础全解析

php 数学公式转成SVG，并下载到服务器本地

查看哪些IP在向kafka的broker生产消息

智能穿戴平台与医疗AI融合发展路径研究

基于springboot+servlet、jsp的潮服购物商城系统的设计与实现,论文7000字

Linux免驱使用slcan，使用方法以Ubuntu为例

Zookeeper 3.8.4 安装部署帮助手册

数据库管理员密码重置指南：MySQL, Oracle, PostgreSQL