当前位置: 首页 > news >正文

DataHub 架构设计与核心工作原理

1. 整体架构设计

DataHub 是一个第三代数据目录系统,专为现代数据栈设计,支持数据发现、协作、治理和端到端可观测性。其架构采用模型优先的设计理念,注重不同工具和系统之间的互操作性。

1.1 架构总览

DataHub 的整体架构可以分为以下几个主要层次:

  1. 前端层:React 实现的 Web UI 和 Play Framework 实现的前端服务
  2. API 层:GraphQL API 和 REST API
  3. 服务层:元数据服务 (Metadata Service)
  4. 存储层:文档存储 (MySQL/PostgreSQL)、搜索索引 (Elasticsearch) 和图索引 (Neo4j/MySQL)
  5. 事件层:基于 Kafka 的元数据事件流
  6. 摄取层:Python 实现的元数据摄取框架

架构总览

1.2 架构亮点

DataHub 架构的三个主要亮点:

  1. Schema-first 元数据建模:使用序列化无关的语言 (PDL) 描述元数据模型,支持 REST 和 GraphQL API,以及基于 AVRO 的 Kafka 事件通信。

  2. 基于流的实时元数据管理平台:元数据基础设施采用流式设计,使元数据变更能在几秒内反映到平台中,并允许订阅元数据变更事件。

  3. 联邦式元数据服务:支持由不同团队拥有和运营的联邦元数据服务,通过 Kafka 与中央搜索索引和图进行通信,支持全局搜索和发现。

架构

2. 核心组件工作原理

2.1 元数据存储 (Metadata Store)

元数据存储负责存储构成元数据图的实体 (Entities) 和方面 (Aspects),提供 API 用于摄取元数据、按主键获取元数据、搜索实体和获取实体间关系。

技术实现

  • Spring Java 服务托管一组 Rest.li API 端点
  • MySQL 作为主要存储
  • Elasticsearch 用于搜索索引
  • Kafka 用于事件流通信

主要功能

  • 元数据的 CRUD 操作
  • 主键查询
  • 全文搜索
  • 关系查询(如血缘关系)

2.2 元数据模型 (Metadat

http://www.xdnf.cn/news/1031959.html

相关文章:

  • Hive SQL:一小时快速入门指南
  • 第五章 决策树
  • 关于凸轮的相位角计算
  • 16 celery集成其他工具
  • Blender 案例及基础知识点
  • LIN通信错误 CSError( invalid checksum)
  • Element Plus 去除下拉菜单周黑边
  • 34-Oracle 23 ai 示例数据库部署指南、脚本获取、验证与实操(兼容19c)
  • 嵌入式开发中fmacro-prefix-map选项解析
  • evo工具
  • linux驱动开发(9)- 信号量
  • 《Elasticsearch 分布式搜索在聊天记录检索中的深度优化》
  • 驱动程序无法通过使用安全套接字层(SSL)加密与 SQL Server 建立安全连接,
  • 【Elasticsearch】分词机制详解(含实战案例)
  • [学习] FIR多项滤波器的数学原理详解:从多相分解到高效实现(完整仿真代码)
  • 【FineDance】训练:accelerate config 的作用
  • tshark命令行语法详解
  • 量化面试绿皮书:13. 贴错标签的袋子
  • Python爬虫实战:研究simpleq相关技术
  • 同步与异步编程范式全景研究——从CPU时钟周期到云原生架构的范式演进
  • Windows平台进程加速方案研究:以网盘下载优化为例
  • 再参数化视角下的批量归一化:缩放平移操作的本质意义
  • ESP32-S3 学习之旅开篇:课程与芯片基础全解析
  • php 数学公式转成SVG,并下载到服务器本地
  • 查看哪些IP在向kafka的broker生产消息
  • 智能穿戴平台与医疗AI融合发展路径研究
  • 基于springboot+servlet、jsp的潮服购物商城系统的设计与实现,论文7000字
  • Linux免驱使用slcan,使用方法以Ubuntu为例
  • Zookeeper 3.8.4 安装部署帮助手册
  • 数据库管理员密码重置指南:MySQL, Oracle, PostgreSQL