当前位置: 首页 > java >正文

Unity Catalog 三大升级:Data+AI 时代的统一治理再进化

在刚刚落幕的 2025 Databricks Data + AI Summit 上,Databricks 重磅发布了多项 Lakehouse 相关功能更新。其中,面向数据湖治理场景的统一数据访问与管理方案 —— Unity Catalog,迎来了三大关键升级:全面支持 Apache Iceberg、面向业务用户的全新使用体验,以及数据治理与安全能力的持续增强

过去 Unity Catalog 更加依赖 Delta Lake,如今对 Apache Iceberg 的全面支持,意味着用户可通过 StarRocks、Trino、EMR、Flink、Spark 等多种引擎访问和共享同一份数据,真正摆脱格式锁定。同时,外部 Iceberg Catalog 联邦功能也让用户无需复制或迁移数据,即可统一治理 Glue、HMS、Snowflake 等系统中的 Iceberg 表。

对于采用多工具、多团队或多云环境的企业来说,这些能力的提升,标志着开放湖仓生态正在加速走向成熟。

作为 Lakehouse 架构中的关键基础设施,Unity Catalog 也为 Data + AI 提供了统一的数据治理与访问控制框架,打造可信、可控、可共享的数据基础,加速 AI 应用的规模化落地。

在本文中,我们将借由这条新闻,带大家认识 Unity Catalog,解释它对你的工作意味着什么,以及为什么现在正是采用更开放基础设施策略的最佳时机。

什么是 Unity Catalog ?

在了解 Unity Catalog 之前,我们需要先认识当前数据目录(Catalog)所面临的三大挑战:

首先,多数云数据平台缺乏开放的访问方式。许多云数仓采用专有表格式和元数据目录,限制了外部系统的访问与集成,且往往依赖持续运行的计算资源来支持查询,不仅成本高,也缺乏灵活性。其次,数据与 AI 资产长期割裂,形成数据孤岛,难以共享和复用。最后,缺乏统一的数据治理框架,企业难以在权限控制、安全合规、数据血缘等方面,对数据和 AI 资产进行集中管理。

Unity Catalog 正是为解决这些问题而生。它是一个统一的元数据与数据治理平台,能够集中管理数据湖和湖仓中的所有数据资产,支持跨多引擎(如 Spark、Trino、StarRocks)与多格式(如 Delta Lake、Iceberg、Hudi)的访问控制、权限管理、血缘分析和审计。通过统一治理、安全合规和高效共享,Unity Catalog 显著简化了元数据管理,并支持企业级多租户与细粒度的访问策略,是构建开放、高效、可扩展湖仓架构的关键组件。

它带来了两大核心价值:一是灵活性更强,摆脱厂商锁定,让用户真正拥有数据与元数据,自由选择最佳技术路径;二是强大的互操作性,在不同数据格式与计算引擎间实现无缝协作,尤其适配多样化的 AI 应用场景,既提升集成效率,又保障一致的用户体验。

StarRocks x Unity Catalog:打破格式壁垒,加速湖仓进化

自 Databricks 于 2024 年 6 月宣布开源 Unity Catalog 起,StarRocks 作为首批开源生态合作伙伴,积极参与生态建设,助力全球用户无缝接入开放湖仓体系。在统一治理、安全控制与多引擎互操作的基础上,StarRocks 充分发挥其高性能分析引擎的优势,成为开放数据架构中的关键计算支撑。

在 Unity Catalog 构建的开放湖仓生态中,StarRocks 提供三方面价值:

  1. 加速湖上分析:StarRocks 可通过 Iceberg REST 去查 Unity Catalog 管理的数据,支持高速、低延迟的多维即席分析,让数据无需迁移即可高效使用。

  2. 简化架构、拓展场景:通过与 Unity Catalog 的无缝集成,用户可在湖上数据上直接构建 BI 报表,减少数据搬移与 ETL 成本,提升分析效率与实时性。

  3. 推动开放生态发展:作为开源计算引擎,StarRocks 与 Unity Catalog 的互操作性增强了企业对计算引擎的选择自由,加速构建去中心化、可持续的湖仓生态系统。

StarRocks 与 Unity Catalog 的融合,不仅降低了用户在多种解决方案间的迁移门槛,推动了计算引擎的专业化与差异化发展,也进一步夯实了开源基础,打破厂商锁定,构建出一个更开放、多元、灵活的技术生态,赋能企业实现更高效、更可靠的数据分析能力。

What's Next?

如果你对 Unity Catalog 感兴趣,欢迎阅读以下文章,深入了解本次在 Data + AI Summit 2025 上发布的重磅更新详情: 👉 What's New in Databricks Unity Catalog | Data + AI Summit 2025

此外,我们还准备了一个实操 Demo,展示如何通过 Unity Catalog、Delta UniForm 与 StarRocks 实现跨引擎的无缝互操作性,欢迎体验!

https://www.bilibili.com/video/BV1KyKazNENV/?vd_source=1cb452610138142d1300dd37a6162a88

参考资料:https://www.databricks.com/blog/announcing-full-apache-iceberg-support-databricks

https://www.databricks.com/blog/whats-new-databricks-unity-catalog-data-ai-summit-2025

https://www.starrocks.io/blog/build-a-more-open-lakehouse-with-unity-catalog

https://www.databricks.com/product/unity-catalog#features

http://www.xdnf.cn/news/14711.html

相关文章:

  • Leetcode 3598. Longest Common Prefix Between Adjacent Strings After Removals
  • JDK自带的HttpClient,替代Apache的更优解?
  • Spring Cloud:分布式事务管理与数据一致性解决方案
  • 【如何实现分布式压测中间件】
  • 【算法设计与分析】(二)什么是递归,以及分治法的基本思想
  • 【word】把参考文献序号统一换为上标
  • github上传代码步骤(http)
  • Redis--黑马点评--消息队列
  • 基于 SpringBoot 实现一个 JAVA 代理 HTTP / WS
  • 电压跟随器输入电压正常、输出电压等于0V?
  • WebRTC(十三):信令服务器
  • python动漫周边电商网站系统
  • 视频序列中的帧间匹配技术 FrameMatcher 详解
  • 领域驱动设计(DDD)【23】之泛化:从概念到实践
  • SQL 子查询全位置解析:可编写子查询的 7 大子句
  • Web基础关键_004_CSS(二)
  • 2023国赛linux的应急响应-wp
  • JSON简介及其应用
  • 【LLIE专题】EnlightenGAN 无监督低照度图像增强
  • 实现一个AI大模型当前都无法正确实现的基础二叉树读取算法
  • 商业秘密中经营信息的法律保护探析——以客户名册为例
  • 数字孪生技术引领UI前端设计新革命:实时交互与模拟预测
  • 【Bluedroid】蓝牙启动之BTM_reset_complete源码解析
  • yolov13+bytetrack的目标跟踪实现
  • pytorch中的几个概念
  • 港澳地区,海外服务器ping通可能是地区运营商问题
  • c# sugersql 获取子表数据排序
  • MySQL彻底卸载教程
  • 桌面小屏幕实战课程:DesktopScreen 16 HTTP
  • Java锁机制知识点