IDC 观察:一体化数据库如何支撑 GenAI 的数据需求
5月17日,“第三届 OceanBase 开发者大会”在广州举办。在主论坛环节,IDC软件市场研究经理李凌霄作为特邀嘉宾,发表了题为《新一代AI与数据库的融合》的专题演讲,通过对市场的行业洞察,李凌霄为与会者描绘了AI与数据库技术融合的发展趋势。
李凌霄在演讲中指出,当前生成式AI技术已具备解析多模态数据价值的能力。对企业基础设施而言,如何实现多模态数据的存储、混合检索和加工处理,特别是在生成式AI环境下的深度整合,正成为数据基础设施面临的重要挑战。
李凌霄提到,基于整体市场乐观以及对生成式 AI 未来价值的认可,IDC 预测到 2027 年,70% 的 IT 团队开始回归本源,关注数据的流通质量、数据的治理,以及打造一个 AI 就绪的数据基础设施平台。
李凌霄还强调,企业要有前瞻性布局。希望每个企业在进行数据基础设施升级的时候,能够考虑到未来 AI 创新应用对数据库的能力要求。在企业进行数据库选择时,可以优先考虑 OceanBase 这类具备开放架构的数据库,可以不断扩展存储和计算,无论负载还是计算能力,可以用各种状态来适配不同企业的发展状态。
以下是分析师的观点摘录:
GenAI 给数据带来了什么?
简单回溯一下,从 2023 年年底 OpenAI 发布 ChatGPT 以来,生成式 AI 开始爆发性增长,后来两年的时间经历了过热再到冷却,到今年生成式 AI 领域的两个重点话题,第一个就是 AI Agent,主要关注生成式 AI 落地问题;另外一个是多模态,进一步延伸了生成式 AI 在视频、音频、图像的处理和生成能力。
对于数据来讲,更关注的是受生成式 AI 影响,在数据库层面可以做哪些东西?
来看一组数据。IDC 全球 AI 计算与存储市场预测,可以明显的看出来,2023 年整个 AI 市场相较于 2022 年有了非常大的增长,2023 年之后爆发一直持续,到 2028 年,IDC 预测整体 AI 的市场规模相较于 2022 年增长将近 400%,相较于现在整体市场的宏观增长来看,这个比例是非常巨大的。
IDC关于全球AI计算与存储市场的预测
生成式AI的市场份额,到 2028 年 IDC 预计在整个AI市场规模里,占比达到将近 40%,无论是从市场侧得到的反馈还是 IDC 内部研究来看,大家对于生成式AI发展的疑虑已经全部打消了,我们对生成式AI未来的发展持一个非常乐观的态度。
另外一组数据。IDC每个季度都会对其全球 CIO 库里的人员做一次问卷调查,里面有一个问题是: 2025 年企业IT支出大幅增长的驱动因素是什么?并列高的两个因素,就是降低 IT 运营成本和加大 AI 应用布局。
2025年企业IT支出大幅增长的驱动因素
“提前布局AI应用”这个驱动因素可以反映出两个事情:
第一是我们从最终行业用户的角度理解,大家对于生成式 AI 未来的价值,以及对应的落地难度,已经有了非常大的信心,开始提前布局这个事情。
第二,我们现在说的 AI 应用的布局,而不是 AI 应用的成熟落地。AI 应用落地还没有到达一个真正的成熟阶段,现在这个阶段,信心存在了,还需要等待技术落地成熟的进一步演化。但是未来企业在开发 AI 应用的时候,要对所有基础设施提前布局,包括数据基础设施、大模型、对应的人才团队等。
基于整体市场乐观的状态以及对生成式 AI 未来价值的认可,IDC 预测到 2027 年,70% 的 IT 团队开始回归本源,关注数据的流通质量、数据的治理,以及打造一个 AI 就绪的数据基础设施平台,我们对未来的数据基础设施平台的定位就是,为创新 AI 应用提供支撑的数据平台,未来的应用,一定是基于 AI 应用,未来数据公司也一定会是 AI 公司。
再来看一组关于数据量的调研。根据 IDC 企业数据圈(DataSphere)的观察,预计到 2028 年全球企业的数据量,不包括消费数据,较 2023 年整体增长 400% 以上,年复合增长率 30.2%,突出的两个行业一个是制造业,一个是零售,都保持在 30%,制造业接近 40% 的年复合增长率。
今天重点聚焦在数据库,我们分享 AI 包括生成式 AI 技术广泛应用,赋予企业从数据中获取洞察的新能力。这个能力体现在通过生成式AI技术解析多模态数据的价值在技术可行性上已经实现了。
对于最终用户来讲,当他们开始意识到多模态数据能真正为企业的管理、运营、决策、业务带来深度的价值时,就可以大量生产、存储、加工动态数据。因此,企业级数据的快速增长很大一部分原因是多模态的数据快速增长。
对于企业基础设施来讲,针对多模态数据的混合检索、存储、加工,以及多模态数据跟结构化数据在生成式AI环境下的进一步的融合,是对于数据基础设施的挑战。
传统数据基础设施,有没有做好迎接生成式AI应用的准备?关于现在传统的数据基础设施的割裂,这里提出 4 点:
1、 负载割裂
过去因为技术能力、计算能力的限制,把 AP、TP 负载分开处理。做 AP 大家都知道用时间换空间,随着 TP 负载实时性要求更高,AP 负载的环境更复杂,带来的资源浪费和长数据链条资源消耗以及负载的需求,会导致生成式 AI 场景下对实时性的支撑能力不足,计算资源的充分应用也会造成困扰。
2、 云割裂环境
数据基础设施上云这个事情是毋庸置疑的,现在整个市场都已经被教育得非常好,大家对这个事情没有任何的歧义,除了个别的场景和个别行业,包括 IDC 内部,也包括整体中国的云数据库市场,增长速度要领先全球,比美国要高。
云数据割裂是因为近两年有一些大型的互联网公司,云服务的故障导致服务中断,让大家感觉即使需要上云,也要同时上多朵云保证高可靠的架构。这又导致不同云平台的数据交互、加工以及治理面临非常大的挑战,一方面是跨云数据传输的性能消耗,二是不同云平台之间数据的不一致性。
3、多模态割裂
传统场景下多模态主要是通过纯 AP 场景实现,专库专用,包括文本数据库、图数据库、内存数据库、文档数据库等,每一种数据模型都有专门的数据库来进行处理,如果对多模态数据的存储、查询、分析等性能要求不高时,专库专用没有问题。但是生成式 AI 时代,应用需要对多模态数据做 Hybrid Search,需要在计算层屏蔽所有异构数据的差异化,实现融合检索与查询。这种场景下,专库专用的架构,会给异构数据之间的 Hybrid Search 带来很大性能的消耗和响应的延迟。
4、技术债务
企业需要先做数字化再做智能化,有很多企业可能连数字化都还没有做完,现在新的一波变革又来了,那么面向生成式 AI 的基础设施,怎么样去继续保持企业技术架构的完整性和先进性?
企业在后期做整体数据基础设施定位的时候,一定要把战略眼光放远,把未来 AI 对基础设施要求,纳入到基础设施的整体建设能力中,避免造成新的技术债务。
GenAI的数据底座:一体化数据库
如何应对生成式 AI 对数据基础设施带来的技术挑战?我们将其定位为一体化数据库。一体化数据库不是特有的技术,它是一种状态,企业发展阶段不同,它的呈现方式不一样。
我们粗略地把一体化数据库发展状态分为四个阶段。
第一个阶段是非常传统的单点优化的阶段。
第二个阶段是 TP 集中化。企业开始尝试做一体化,把企业所有的交易系统合并到一个技术栈上承接所有业务负载。
标准的技术路线分为两条。第一条是通过公有云的方式,尤其是互联网企业和零售企业,把所有的核心、非核心的交易系统,全部放到一朵云上,通过云原生技术的弹性和高可用架构来承载企业所有的业务负载;另外一条路线针对上云敏感或者需要实现数据自主性的企业,通常选择负载上线高的分布式数据库产品,通过租户的方式,将企业所有的事务负载全部集中到一个平台上,实现 TP 集中化。许多企业已经完成了这一阶段。
第三个阶段是TP+AP+向量三种负载融合。TP + AP 即 HTAP,目前 HTAP 场景下的 AP 能力主要局限于中小场景或者实时场景的特定能力,还无法覆盖独立的 AP 产品的所有场景。未来,HTAP 能力或许可以承担完整的 AP 负载。
另外就是向量融合阶段。生成式 AI 刚热的时候,向量非常火,对于向量数据库,大家认为可能会成立一个独立的赛道,但是现在三年过去了,现在在 IDC 视角观察,更多的企业,实现向量融合的方式,是通过现有数据基础设施之上,融合一个向量插件这种方式,也是更简单经济去获取向量能力 ,独立部署一个向量平台的这种方式来说,现在看会越来越少。这是我们现在目前主要在试验的阶段。
第四个阶段是 AI 全链路支持阶段。基于技术发展的长远眼光看,完整的一体化数据库具备的形态,是最终能够实现AI全链路的支持阶段。未来 AI 主导了应用层的时候,数据基础设施也要面向于 AI 提供开发 AI 创新应用的能力,比如推理能力、向量能力、RAG 能力、Hybrid Search 的能力。
具体来看,创新应用对数据基础设施提出的能力要求包括:全负载、多云、实时、AI 响应。
基于AI创新应用对数据基础设施的能力要求,我们需要构建一个具备什么能力的数据平台或者数据基础设施?
1、 多云环境的灵活调度
这个多云环境不单单指部署在多云环境上,在部署层可以忽略部署平台,无论是私有化终端、边端,无论是一朵云还是多云,可以在部署层完全屏蔽掉基础设施,同时完成基础设施的内部的灵活调度,不受限于任何平台的瓶颈,比如网络或者技术差异。
在基础的多云部署环境下,一体化数据库具备的三个核心的产品能力,第一是混合负载,包括 HTAP 和向量负载。
2、 多模数据统一管理
第二是多模数据的统一管理。如果排除掉现在存在的专库专用的方式,未来希望一个一体化的数据库可以把所有形态的数据,全部存下来,同时在计算层或者引擎层,可以屏蔽掉所有异构数据带来的差异化,可以通过一条 SQL 语句完成多模态数据与结构化数据的融合查询。
3、AI推理与服务支撑
未来面向AI需要提供在AI开发过程中需要的推理能力,服务支持包括向量、RAG甚至涉及到集成开发环境,都需要在数据支撑层面给到基础支持。
整体的能力上需要实现的是统一技术栈和产品集成化。未来企业所有的TP、AP向量全部都是在一个技术栈实现的,配备的管理团队和运维团队都是面向一个技术栈,完成 AI 创新应用开发过程中从数据的生成到存储到分析到推理所有的环节。
这对企业整体架构是非常大的简化,无论是产品线、技术栈、管理,还是人才和团队。
新的一体化数据库给企业带来哪些价值?
新的一体化数据库能给企业带来什么样的价值?直观的价值就是TCO 整体集约,在整体架构下实现统一的技术栈,对应的 TCO,无论是硬件设施还是软件 license,以及团队管理建设,都是非常大成本的节约。
许多企业现在整个数据链条涉及到十几个产品,每个产品都需要单独的运维团队和开发人员来做。未来希望整个产品线简化成一个一体化数据库,在这个数据库下就可以完成数据全生命周期的管理。
另外就是多云流转和成本优化,忽略掉基础设施以后,企业的数据流转会加速很多,链条也会缩短,基于同一个事实表,既支持 TP 的写入,也支持 AP 的实时查询,还支持 AI 应用的实时调用,开发周期、数据的运转效率以及项目的开发效率都会得到非常大的提升。
战略价值首先就是技术自主性,在一体化架构下,尤其是如果采用完全开源的一体化架构,除了内部的负载统一技术栈之外,还可以根据企业需求来定制优化器、引擎计划逻辑、业务分发逻辑,甚至定制一些新的结构数据存储格式,形成一个完全的平台,不依赖于任何厂商,形成自主性。
其次是多云生态主动权,因为底层屏蔽了所有的云环境,企业可以从 A 云到 B 云非常快速的跨云,有较大的主动权与云厂商谈判 。同时可以以不同的环境应用不同云平台的这个优势,来做更优云的部署要求。
还有就是数据生态,本身把整个企业内部数据进行盘活和流程进行简化,可以构建内部、外部的数据统一对接,来完成结构化数据和非结构化数据、内部数据和外部数据的整合。同时也可以在一致情况下,完成 AI 的数据结果反哺业务数据的快速实现。
价值创造出来之后,想和大家聊聊具体的收益,实际上更多想强调的是隐性收益,显性收益大家比较容易理解,就是成本和效益。
隐形收益,第一点是业务创新价值。完成一体化平台构建,进入最终状态赋能创新应用的整个开发过程中的时候,企业就可以去孵化出更多的基于 AI 能力的创新应用。
第二点是组织协同,当数据链条全部简化,加快了业务跟IT团队的协同效率,同时也加快了所有的创新应用开发的过程和链条。
第三就是技术自主性和创新,就是刚才讲到的技术主权的问题。
企业拥抱GenAI的五大建议
IDC 根据企业的发展过程,包括在部署一体化数据化的时候,从行业用户落地的角度给出 五 个建议。
第一是找到优先级,把创新应用的优先级先进行排序,把更具价值的创新应用首先进行落地。这样也保证创新过程中,输出是更高效的。
第二就是分段实施,控制转型成本。挑选典型场景对向量以及多模态的能力进行初步的验证,再进行转型。
第三选择开放架构,像 OceanBase 这样的数据库可以去不断扩展存储和计算,没有上限。无论是负载,还是计算能力,可以用各种状态来适配不同企业的发展状态。
第四是组织能力的重塑和数据文化的构建,在一体化数据库实践的过程中,对于整个 IT 部门管理架构是有重大影响的。原先的角色,包括独立的 TP 数据库管理员、AP 数据库管理员、ETL 工程师、CDC 工程师、数据治理工程师,所有这些角色都会在统一平台做。因此,企业要重构 IT 每一个部门的角色,在一体化数据库框架下找到每个角色新的定位。
第五是前瞻布局的挑战。前瞻布局对应的是刚刚提到的技术债务的问题,在生成式AI驱动AI就绪的基础设施状态下,希望每个企业在下一步进行数据基础设施升级的时候,能够考虑到未来AI创新应用对数据库的能力要求,而不是简单的先整体完成数字化之后再考虑AI创新应用的适配。
更多相关分析,可下载IDC的行业趋势白皮书:《一体化数据库,打造 GenAI 时代数据底座》