当前位置: 首页 > news >正文

Gartner 《2025大数据管理规划指南》学习心得

概要

本研究旨在为数据和分析(D&A)技术专业人员提供2025年的数据管理规划指导,帮助他们应对最新数据管理趋势,以增强决策制定并实现卓越的业务成果。强调了持续适应数据管理实践的组织将更有能力做好人工智能(AI)赋能业务。

关键趋势:

  • 生成式AI的影响 :生成式AI(GenAI)扩展了传统数据管理原则,使其涵盖结构化、半结构化和非结构化数据,以实现AI就绪。随着GenAI的蓬勃发展,数据管理通过包括分类法、本体论和数据模型在内的元数据来支持它,这些元素提供了结构化、有组织且语义丰富的数据框架,可提高数据质量及上下文理解能力,从而更高效地管理数据。

  • 云平台服务网络的优势 :在一个云平台内形成一个紧密连接的服务网络,可能超越在不同云平台内和跨不同云平台采用多种服务的感知优势。例如,2024年Gartner技术架构调查显示,由于技术变化的快速 pace 和系统及数据在不同平台上的分布,组织在做出架构决策时愈发困难,这种情况下,单个云平台内的服务网络的紧密连接程度就显得更为关键。

  • 统一湖仓架构的好处 :统一的湖仓架构可减少数据冗余、简化集成、加速数据访问、支持数据标准化,并协调DataOps和治理,还简化了设计、维护和优化工作。

  • 数据管理对GenAI的支持 :GenAI的繁荣使得数据管理需要以元数据形式为其提供支持,进而提升数据管理的效率和质量。

战略规划假设

  • 预计到2026年,GenAI将使手动密集型数据管理成本每年降低多达20%,同时启用四倍多的新用例。

  • 到2027年,GenAI的应用将加速D&A治理和主数据管理(MDM)计划的价值实现时间40%。

  • 到2026年,采用DataOps实践和工具的数据工程团队的生产效率将是未使用DataOps的团队的10倍。

数据管理趋势

  • 数据管理的两极挑战 :一方面,数据管理专业人员需采用数据治理和高级数据工程原则,以支持大型语言模型(LLMs)和GenAI的检索增强生成(RAG)功能,这意味着数据团队要处理非结构化和半结构化数据、信息检索及知识推理等工作,以确保为AI提供可信、最新且准确的数据。另一方面,要通过与业务目标对齐来提升D&A治理计划的采用率,解决沟通和变更管理方面的挑战。

  • 自动化数据质量计划 :采用元数据驱动的方法,利用数据目录和治理能力,并结合数据驱动的方法,让AI从数据中学习以推断规则并主动监控数据模式变化,从而自动化数据质量计划。

  • 数据集成的成熟技术应用 :运用成熟的技术进行数据集成工作,借助DataOps以敏捷且以数据为中心的方式维护数据管道,并使用框架不可知论的解决方案来定义可扩展性和延迟要求。

数据架构模式的转变

  • 适应性设计的影响 :数据架构模式的快速变化要求技术专业人员调整当前策略,以适应本地部署、云、多云、跨云和混合部署模型。组织必须创建可适应的设计和灵活的架构,以实现无缝集成、促进协作并推动广泛的部署实践。

  • 向统一数据架构的转变 :需要一个统一的设计来集成新技术与现有的数据管理基础设施和服务,并适应未来对更多能力的需求,与更广泛的D&A治理计划的目标和目标保持一致。这种架构的有效性越来越依赖于跨越各个领域的软件应用程序和服务的无缝集成和兼容性。

  • 从集中式到分布式数据管理模型的转变 :传统数据管理解决方案是为集中式部署而设计和优化的,但现在分布式和复杂用例的出现正在推动创新,以创造业务价值。Gartner看到数据管理操作正在从集中式模型转变为分布式模型,无论是在业务域内还是跨业务域,以及通过将数据作为产品交付。

专门模式为以AI就绪数据(AI-ready)为导向

  • 数据工程原则 :从传统数据管理向以数据为中心的AI过渡的过程中,“连接”不同数据系统/来源、数据概念、数据项及其关系;“策划”解决数据重复、数据完整性和数据质量问题;“上下文化”保留数据的隐式和显式关系,包括从业务和运营角度的元数据上下文;“持续”自动添加新的数据上下文、检测问题以支持数据,并频繁刷新数据以支持AI获取最新信息。

  • AI辅助数据管理 :数据管理从AI技术中受益,如自然语言处理(NLP)与多个数据库的深度集成,有助于准备和管理数据集,以发现结构化、半结构化和非结构化上下文中的见解和关系,这对于训练LLMs以更有效地学习、理解、操作和生成人类语言至关重要。知识图谱可以为NLP提供支持,具有明确定义的本体、分类法和词汇表。此外,GenAI中越来越需要检索内部数据并将其作为模型提示的上下文,称为RAG,结合图数据库和向量数据库可以提高检索或排名结果的准确性,降低模型出现幻觉的风险。

数据架构的规划考量

  • 定义数据架构的AI就绪性 :确保高数据质量、集成多样化数据源、构建可扩展且安全的基础设施以及实施健壮的治理框架,还需要实时数据处理、有效的元数据管理和持续改进实践,以支持LLMs和GenAI的高效部署和运营,推动更好的业务成果。

  • 探索开放格式和湖仓架构 :云系统正朝着结合数据湖和数据仓库能力的收敛数据架构发展,开放表格格式和湖仓架构推动了数据管理架构的革命,为存储和管理大型数据集提供了标准化方式,能够处理和交付支持数据湖和数据仓库功能、高级分析以及机器学习(ML)和AI计划的复杂、可扩展工作负载。

  • 采用结构化方法架构和交付数据产品 :数据产品是一种策管的、自包含的数据、元数据、语义和模板的组合,包括为解决特定业务场景和重用而认证的访问和实现逻辑。它必须是可消费的(消费者可信赖)、由工程团队保持更新且经过治理批准。数据管理必须支持数据产品的整个生命周期,包括定义、开发、发布、消费和监控。

  • 增强数据架构以推动更好的业务成果 :数据建模已成为众多技术组件设计的 整合能力部分,包括关系和非关系数据结构、数据集成框架、运行时模型和数据交付框架。它通过数据域和语义层为数据消费者实现。此外,数据建模还定义和对齐业务数据概念,在非技术领域促进一致性,支持数据治理、数据质量、数据隐私和安全以及业务数据词典创建等各项计划和项目。

数据存储与共享

  • 数据基础设施的支撑作用 :数据基础设施不断发展,使用多种数据存储和处理引擎以最大化成本优势在本地和云环境中变得愈发重要。数据通常分布在企业内外的多个系统中,识别和集成这些数据仍很困难。为了支持D&A架构,组织正在寻找创建能够提供统一访问的数据生态系统的方法,通过整合多个数据管理解决方案来实现。

  • 数据共享策略的价值 :2023年Gartner分析和AI采用调查中,70%的参与者报告其组织正在共享或计划跨组织共享数据。采用数据共享的组织更有可能优先通过数据共享推动业务成果和货币化。

D&A治理与元数据管理

  • 治理的重要性提升 :由于GenAI解决方案严重依赖数据,因此在治理不佳的数据上构建GenAI解决方案是不可取的。GenAI的兴起使得D&A治理更加重要,到2027年,GenAI的应用将加速D&A治理和主数据管理(MDM)计划的价值实现时间40%。

  • 治理的战略路线图 :所有组织的治理之旅都将经历准备、构建和扩展三个关键阶段,且七个基础是必要的。组织还应扩大MDM和数据质量原则的采用,以支持AI就绪数据,促进业务与IT之间的协作,确保企业数据资产的一致性、准确性、语义一致性和问责制。

  • 利益相关者参与和业务价值的驱动 :D&A治理涵盖一系列数据管理活动,包括建立政策、程序和跨数据质量、数据安全、数据隐私和道德计划的标准,还包括数据保护和数据共享的关键方面。许多组织的技术专业人员参与D&A治理,导致治理项目围绕数据管理计划的技术要求设计,使得业务团队中的非技术利益相关者不清楚治理角色和职责。因此,D&A功能必须与业务利益相关者合作,通过关注业务驱动的目标来推动业务价值。

数据工程的改进

  • 数据工程面临的挑战 :数据管理平台的快速发展,使得数据工程师参与各种数据重构工作,包括架构设计、开发和迁移数据集成管道等,面临着敏捷性、以数据为中心的开发方法以及定义可扩展性和延迟要求的框架不可知论解决方案等诸多挑战。

  • DataOps实践的关键作用 :到2026年,采用DataOps实践和工具的数据工程团队的生产效率将是未使用DataOps的团队的10倍。通过DataOps原则应用的数据工程实践,如配置驱动的方法、抽象层的构建、公共元素的重构等,对于推动数据集成管道和工作负载至关重要。

  • 数据质量的挑战与应对 :数据质量是数据管理管道的 integral 部分,实现组织的数据质量目标需要利用整个数据架构,包括数据管道,以实现关键数据质量维度。现代数据质量工具利用AI / ML能力来建立数据的相关性和准确性,同时减少用户监督和交互,从而大大提高用户生产力。

  • 数据管道编排与工作流管理 :随着组织开始在混合环境和多个云服务提供商(CSP)上执行工作负载,通过集中统一的界面编排数据管道将成为关键元素。数据工程师应探索编排产品,用于云迁移、管理Apache Spark作业以及在失败时自动重试等用例,并在现有生态系统中拥抱编排以自动化任务并解决数据集成任务的依赖性。

  • 数据集成架构的交付 :数据集成架构是每个数据工程实践的核心,因为它可以桥接数据孤岛并将它们整合在一起以推动业务决策。现代数据管理平台需要在复杂的环境中部署各种数据集成用例和风格,包括数据源、存储和计算,以实现在多个云和本地位置的数据处理和访问。

  • 数据可观测性的实践 :数据可观测性采用一系列技术来检测数据问题、评估其影响并识别根本原因,通过自动化可以定位数据质量问题,从而防止下游问题。数据可观测性是DataOps的关键,它观察数据、数据管道和数据平台,旨在减少组织内数据消费的摩擦。

http://www.xdnf.cn/news/394723.html

相关文章:

  • 【安装配置教程】ubuntu安装配置Kodbox
  • 【RP2350】香瓜树莓派RP2350之搭建开发环境(windows)
  • AI日报 - 2024年05月12日
  • redis数据结构-05 (LPUSH、RPUSH、LPOP、RPOP)
  • 第二十二节:图像金字塔-拉普拉斯金字塔
  • 深入浅出:Spring Boot 中 RestTemplate 的完整使用指南
  • AI Agent(9):企业应用场景
  • springboot3+vue3融合项目实战-大事件文章管理系统-更新用户头像
  • MySQL(8)什么是主键和外键?
  • Ubuntu 22虚拟机【网络故障】快速解决指南
  • Linux:44线程互斥lesson32
  • 【言语】刷题1
  • 手机当电脑播放器 soundwire
  • Python异常处理全解析:从基础到高级应用实战
  • 《大模型微调实战:Llama 3.0全参数优化指南》
  • js前端分片传输大文件+mongoose后端解析
  • 大数据基础——Ubuntu 安装
  • 洛谷题目:P1673 [USACO05FEB] Part Acquisition S 题解(本题简)
  • 基于zernike 拟合生成包裹训练数据-可自定义拟合的项数
  • Vue Router全局拦截
  • 《Vuejs 设计与实现》第 4 章(响应式系统)( 下 )
  • ES 面试题系列「二」
  • C++ asio网络编程(4)异步读写操作及注意事项
  • (十二)Java枚举类深度解析:从基础到高级应用
  • C++八股——函数对象
  • 工具篇-扣子空间MCP,一键做游戏,一键成曲
  • C/C++实践(五)C++内存管理:从基础到高阶的系统性实现指南
  • 《从零构建一个简易的IOC容器,理解Spring的核心思想》
  • 命令行解释器中shell、bash和zsh的区别
  • LangChain对话链:打造智能多轮对话机器人