当前位置: 首页 > news >正文

杨传辉:构建 Data × AI 能力,打造 AI 时代的一体化数据底座|OceanBase 开发者大会实录

5 月 17 日,OceanBase 在广州举办第三届开发者大会。主论坛环节,OceanBase CTO 杨传辉系统阐述了 Data × AI 战略,并正式推出三大产品:PowerRAG、共享存储 及OceanBase桌面版

杨传辉指出,数据与AI模型的一体化融合,是 OceanBase 打造 Data × AI 能力的核心。未来,OceanBase 将持续努力,从一体化数据库演进为一体化数据底座。他特别强调,OceanBase 成熟的企业级分布式技术能力,将为AI时代的海量数据处理提供坚实的数据底座。

以下为在开发者大会中的演讲全文:

图片

各位 OceanBase 的用户、开发者、媒体朋友们,大家上午好!

非常开心与大家一起相聚广州,今天大会的主题是【当 SQL 遇见 AI】。前段时间,我们发布了 Data × AI 的战略,即用 AI 赋能 Data,实现 Data 与 AI 的深度融合。OceanBase 始终专注于数据处理,我们相信未来企业拥抱 AI 的关键在于高效的数据处理能力,这不仅是数据处理行业的发展趋势,也是数据库行业的重要机遇。

今天,我分享的主题是《打造 AI 时代的一体化数据底座》。数据库的核心是处理交易与分析,而数据底座的目标是通过一体化的产品和引擎,同时支撑 OLTP、OLAP 及 AI 混合负载。OceanBase 成立于 2010 年,过去 15 年,我们在移动互联网时代通过场景的打磨,成为全球领先的原生分布式数据库。未来 15 年,在 AI 大爆发的浪潮中,我们希望通过中国乃至全球的 AI 场景实践,成为 AI 时代的一体化数据底座。

OceanBase 一体化演进历程与架构升级

(一)OceanBase 一体化演进历程

OceanBase 持续坚持并践行一体化战略。一体化战略包含两个层面:技术角度的架构一体化和用户体验的功能负载一体化。

从技术的层面来看,OceanBase 在历史上经历了三次关键迭代:

  • 2016 年 OceanBase 发布 1.0 版本,解决了分布式数据库全节点可读可写的问题,奠定原生分布式架构的基础。
  • 2020 年发布 4.0 版本,首创单机分布式一体化架构,一套系统同时实现分布式的扩展性和单机的高性能,被开发者称为“成年人的数据库”,因为 OceanBase 能够做到既要又要还要,同时满足 “分布式扩展” 与 “单机性能” 的双重需求。
  • 今天 OceanBase 迎来第三次技术升级:多云原生架构,即在多云平台上提供完全一致的体验,实现跨云高可用、跨云容灾,以及面向多云的存储计算分离。

OceanBase 最早应用在支付宝的 OLTP 核心业务场景,早期将 MySQL 和 Oracle 升级,实现技术栈的底层统一,实现 RTO<8 秒的高可用,并打榜 TPC-C 基准测试。

随着技术逐渐成熟,我们逐步扩展混合负载能力,从支持 HTAP,实现大小查询,到兼容 NoSQL。在 4.3 版本中,OceanBase 推出实时 AP 能力,通过底层列式存储优化 AP 性能。目前,我们正在重点优化 SQL+AI 的能力,包括向量引擎和混合检索,构建一体化数据底座。

图片

(二)从金融核心系统走向千行百业

OceanBase 最早应用在支付宝,逐步扩展到金融行业,如今已应用到全球超过 2000 家来自各行业客户的核心业务系统中,覆盖多领域的头部客户。

  • 在金融领域:已服务南京银行、建设银行、招商证券、中国人保等金融头部客户。
  • 在非金融领域:已服务中国移动、中国石化、国家电网、科大讯飞、海底捞、理想汽车、T3 出行、德邦物流、高德地图等企业。
  • 面向全球化:已服务 GCash、DANA、Palmpay 等海外客户。

常有开发者问:“OceanBase 是不是专注做金融?”事实上,OceanBase 在设计之初就是一个通用数据库,只是因为我们在金融行业的深度实践足够扎实,大家忽视了在其他行业的广泛应用。

在 OLTP 领域,OceanBase 覆盖从分布式到单机的全功能,能够同时满足多样化的业务需求。近年来,业界常出现关于 “企业应选择分布式还是单机数据库” 的争论,而这类争议忽略了用户的应用场景分层需要匹配差异化的数据处理方案这一特性。具体来看,企业业务场景分成三类:

  • A 类核心场景:数据量大,并发量高,系统对可用性与延迟高度敏感。此类场景必须采用分布式数据库,以满足扩展性与高可用性要求。
  • 关键基础场景:数据量不大,但对性能与稳定性要求较高。这类场景仍然可以使用分布式数据库,并通过 OceanBase 的多租户功能实现统一运维管理。
  • 边缘外围场景:以内部办公系统为代表,数据量较小,此类场景下单机版本即可满足需求。

OceanBase 提出单机分布式一体化架构,是希望通过一套引擎,帮助企业客户统一技术栈。在 OLAP 领域,OceanBase 的性能也已达到业界一流水平。以 Benchmark TPC-H 为例,OceanBase 4.3.5.2 版本对比业界一流的某实时 OLAP 系统,性能表现更优。OceanBase 的 OLAP 已在数百家客户中实现规模化落地,覆盖 HTAP(混合负载)、实时分析(中高并发大查询)等场景。OceanBase 的定位是“1PB 以内最强六边形战士”,即在数据量 1PB 以内的场景中,无论是 OLTP 还是各类 OLAP,OceanBase 均能实现性能和性价比的全方位领先。

(三)一体化架构再升级,OceanBase 多云原生架构

今天,OceanBase 的一体化架构再次升级,推出面向多云环境的存储计算分离方案。OceanBase 4.4 版本通过单一产品同时支持 Shared Nothing(存算一体)与 Shared Storage(存算分离)两种部署模式:Shared Nothing 采用本地磁盘部署,具备高性能和低延迟的特性;Shared Storage 采用远程共享存储,性能略有下降,但性价比显著提升。

用户可以根据业务分层选择适配方案。在要求严苛的核心场景下,要求每个查询在 1-2ms 内返回,可以优先选择存算一体的 Shared Nothing 模式。在要求一般的非核心场景下,更加看重平均的延时或者 95% 的请求的延时,可以选择性价比更高的存算分离方案。

图片

(四)OceanBase 共享存储正式发布

今天,我们正式发布 OceanBase 共享存储版本,这是业界首个基于对象存储、面向 OLTP 的多云原生数据库。共享存储基于存储计算分离方案,底层采用兼容 S3 的设计接口,面向多云开放,支持全球主流公有云平台,适配亚马逊 S3、阿里云 OSS 等云环境。共享存储可实现更好的 Serverless,支撑弹性扩缩容,存储与计算按需使用。相比于 Shared Nothing 模式,存储成本可降低到原来的 1/2 到 1/10,为客户提供极致性价比。

图片

接下来做一道算术题。当 OceanBase 的工作负载由本地盘的模式(即云盘 EBS)迁移到共享存储模式(即 S3)可以节省多少成本?这个测算基于两种情况:

OLTP 的工作负载追求极致高可用,假设 OLTP 在 Shared Nothing 和 Shared Storage 模式下均使用计算副本,经过 AWS 官方网站查询可知,EBS(GP2)本地云盘成本为 0.1 美元/GB/月,S3(标准版)共享存储成本为 0.023 美元/GB/月。

针对 OLTP 工作负载,假设客户有 100TB 的数据,在 Shared Nothing 架构下需要三份本地盘对应三个副本,则存储成本为每月 3 万美金。在共享存储模式下,成本分为两部分:第一部分 S3 的存储成本为每月 2300 美金,四舍五入取 2000 美金;第二部分是热点数据缓存,假设三个副本各缓存 1/3 数据,合计缓存 100 TB 数据,则本地盘成本为每月 1万美金,总计每月 12000 美金。典型 OLTP 工作负载中每个副本缓存 1/3 的热点数据,OceanBase 共享存储可降低存储成本 60%。

针对 OLAP 工作负载,由于实际生产系统里 OLAP 往往采用单副本模式,假设 OLAP 缓存 10% 的数据,在 Shared Nothing 架构下每月需要 3 万美金,在 OceanBase 共享存储模式下,每月需要 2300 美金,本地盘是 1 个副本的 10%,共 1000 美金,合计 3300 美金。总体而言,面向 OLAP 工作负载 OceanBase 共享存储可降本 89%。

图片

通过共享存储模式, OceanBase 的存储成本较传统的 Shared Nothing 架构可降低 1/2 到 1/10,这一优势源于 OceanBase 本身具备业界一流的存储成本水平。

从一体化数据库到一体化 AI 数据底座

(一)大模型落地的三大挑战

今年春节期间,DeepSeek 爆火,大模型在 To C 场景中得到规模化落地。同时我们也发现,大模型真正帮助企业提升效率,还有很长的路要走。这里面主要存在三大挑战:第一,模型准确性与可解释性;第二,训练与推理成本;第三,隐私与数据安全。

图片

在传统数据库场景中,单台机器承载的并发量通常可达数万甚至数十万。而大模型应用的并发量往往仅为数十至数百级别,这种显著差异使得将大模型与企业数据有效结合面临极高挑战。这也为数据库领域提供了新的发展机遇。

大模型落地产生价值的核心在于数据与模型的融合,这里面涉及到很多工程与产品的挑战,其中,数据处理层面包括价值性、实时性、多样性、大量性等问题;大模型本身包括准确性、性能、行业适配性和成本问题。在此,我们做一个简单的抽象,将其定义为 “4V × APAC”,其核心是实现数据与模型的深度融合,并将这一能力应用于蚂蚁集团、中国乃至全球的各类 AI 场景,最终释放 AI 的价值。

图片

(二)Data × AI:从一体化数据库到一体化数据处理底座

如何用 AI 处理数据,让 OceanBase 从一体化的数据库演变成一体化的数据底座,最核心的是数据处理这一 OceanBase 的传统优势。OceanBase 不仅可以支持 OLAP 和 OLTP 等传统工作负载,也可以支持 AI 领域工作负载,覆盖半结构化的数据、文档处理、混合检索及部分 RAG 能力。

Data × AI 在概念上可以分为两个层次:

  • Bring Data to AI:通过数据处理提升模型准确性与推理效率,降低推理成本;
  • Bring AI to Data:将 AI 集成到数据库,实现 SQL+AI 混合计算,产生化学反应,提升产品易用性。

图片

这里分享一个将 AI 能力集成至 SQL 引擎的典型案例。假如需要给今天参加 OceanBase 开发者大会的 18 岁以上的人发一封大语言模型自动生成的邮件,基于 SQL+AI 的融合,只需要一条查询语句,即可从数据库中筛选年龄>18 岁的用户信息,并调用大语言模型自动生成邮件内容,显著提升开发效率。

Data × AI 的愿景很有吸引力,常有开发者会问:为什么 OceanBase 能担此重任?核心在于 OceanBase 对数据处理能力的深度拓展,我们不局限于传统数据库的范畴,而是让数据处理全面适配 AI 时代的多元化工作负载。AI 应用的爆发也给 OceanBase 带来了两大机遇:海量数据处理和混合负载融合。AI 场景模糊了向量和标量、TP 和 AP 的传统边界,开发者希望通过单一引擎、一条 SQL 处理所有工作负载,而 OceanBase 的优势正是一体化和分布式。

历经 15 年自主研发,OceanBase 积累了深厚的产品研发能力和内核掌控能力。在内核研发能力上,OceanBase 团队既能做数据库和分布式的系统,也具备 AI Infra 的研发经验,数据库内核团队与 AI Infra 团队存在人才传承,师兄师姐奠定分布式基础,新生代拓展 AI 能力。在业务场景沉淀上,依托蚂蚁集团海量业务场景验证及技术生态支持,OceanBase 在融合 AI 与数据处理能力上更加顺畅。

OceanBase 的向量能力到底怎么样?我们来现场跑分验证一下。

从现场跑分可以看出,无论是从性能的角度还是成本的角度,OceanBase 的向量性能已达到开源向量数据库业界领先水平。业界有很多向量数据库可以让开发者上手玩一玩,但真正要用到企业生产系统,建议优先选择 OceanBase。OceanBase 向量数据库强大的混合检索能力的背后,是多项关键技术突破:

第一,优化器智能调度能力。在混合检索场景中,优化器需要动态决策向量与标量的计算顺序及索引选择,这属于传统数据库优化器的核心范畴,而 OceanBase 基于 15 年研发积累,该能力领先于业内其他向量数据库。

第二,上下文感知保障精确性。数据库的向量查询是近似查找,可能导致过滤偏差,影响结果准确性。例如,在混合查询中先进行向量筛选,返回召回率后,再将第一次过滤的结果进行标量筛选,这种形式会因初始的向量过滤导致结果缺失。而 OceanBase 会通过上下文感知,先在向量查询阶段记录检索上下文,若标量查询后结果集不足,自动基于上下文回溯向量查询,调整召回率阈值并重新检索。同时,OceanBase 支持向量-标量查询路径的动态迭代,无论先执行向量还是标量操作,都能确保最终结果的完整性与精确性。

第三,全模态工作负载支持。OceanBase 不仅支持 OLTP、OLAP 场景下的标量数据,也支持向量数据、混合检索,对开发者友好。

(三)OceanBase PowerRAG 正式发布

今天,我们正式发布 OceanBase PowerRAG 服务,这是面向 AI 时代的开箱即用的 RAG 服务。在 AI 领域,尽管可通过开源大模型、向量数据库与 Agent 平台搭建 RAG 系统,但实际开发面临多重挑战,涉及到多类型文档的智能识别与切分、优化向量数据库索引策略以提升检索效率以及调试大语言模型提示词以确保生成准确性等。而 OceanBase PowerRAG 将上述流程封装为公有云服务,帮助开发者精简开发流程,实现开箱即用。

从性能上看,OceanBase 的 PowerRAG 服务已达到业界主流 RAG 应用水平,其准确率和召回率显著优于开源组件组合方案。目前该服务已在 OB Cloud 上线,欢迎各位会后前往展台体验实时 Demo。

(四)全面支持 MCP,构建智能体开发新范式

在 Data × AI 的生态布局中,OceanBase 作为底层一体化数据底座,正加速与上层 AI 生态的融合。在向量数据库适配方面,OceanBase 已与 Dify 等业界主流 Agent 平台完成适配,近期也积极拥抱新兴的 MCP 技术,通过该协议将产品接入大模型生态。目前,OceanBase 管控工具 OCP 已支持 MCP ,并计划全面拓展至更多生态工具。开发者可在 Claude 控制台的大模型交互界面中,以自然语言对话方式调用 OCP 功能。例如,直接查看 OceanBase 数据库的 CPU 使用率等。

OceanBase 的向量数据库等部分 AI 产品已在很多客户的业务系统中实现规模化落地。联通软研院基于 OceanBase PowerRAG 构建智能运维知识库,帮助 DBA 降低操作门槛,提升运维效率。三维家在线上装修云服务中,引入 OceanBase 向量数据库,实现 “以图搜图” 功能,系统稳定运行,性价比表现优异。in 银泰商业基于OceanBase 的向量数据库打造 ChatBI 的能力,非技术人员可通过自然语言生成报表与 SQL 查询。

(五)AI for OceanBase:数据管理和使用全面革新

前面谈的是“OceanBase for AI”,接下来我将分享“AI for OceanBase” ,即如何通过 AI 技术提升 OceanBase 的应用体验。

图片

常有人提及国产数据库的提升空间,事实上,借助 AI 能力,OceanBase 已在多个维度实现突破。从 DBA 与开发者视角看,使用数据库主要面临三类问题:知识和文档的获取、开发与优化 SQL 以及问题定位与诊断。

针对第一类问题,我们通过 AI 技术打造更易学习的 OceanBase。基于已发布的 PowerRAG 能力,我们率先将其应用于内部场景,开发了OceanBase AI 助手(可通过官网或社区体验)。

第一个场景是咨询类的问题,如开发者询问“OceanBase 的全文索引是不是支持中文”,针对这种多跳类问题,AI 助手需要先确认 OceanBase 是否支持全文索引,再判断 “是否支持中文分词”,通过两步推理给出准确回答。

第二个场景是社区答疑场景。针对开发者在社区上传的 SQL 报错截图或错误代码,AI 助手可自动解析并提供解决方案。当然,社区中活跃的开发者志愿者往往能提供更优质的解答,他们的贡献与反馈是社区生态的核心驱动力,甚至常常帮助修正 AI 助手的不足 —— 从这个意义上说,开发者才是真正的 “AI”。

针对第二类开发优化效率的问题,OceanBase 开发者工具 ODC 通过自然语言一键生成可视化的执行 SQL,智能生成图表和报表,并自动剖析 SQL 性能。同时,集成 PowerRAG 的诊断问答功能,ODC Copilot 已实现基础的自然语言交互与 SQL 调优能力,后续将持续完善智能图表生成等功能。

针对第三类问题定位与诊断,智能诊断工具 OAS 引入大模型能力,构建诊断智能体,支持容量评估、安全诊断等,将复杂的技术分析转化为易懂的业务语言,其输出的总结报告逻辑清晰、格式规范,已获得管理层面的认可。

打造开发者友好的数据库产品

(一)为开发者带来更易用的产品形态

2021 年 6 月 1 日,OceanBase 正式开源,首个开源版本仅包括 OceanBase 的内核模块。在此也特别感谢第一个开源用户快手,快手基于实际业务场景推动了 OceanBase 开源生态工具从 0 到 1 的发展。

2022 年,开源社区做小型化突破,实现 2C6G 资源和 2 分钟快速部署;2023 年,兼容性全面加强,接入MySQL 8.0 协议,致力于打造“新一代 MySQL”。数据库里有两个主流社区,一个是 PostgreSQL,它通过插件化模式集成 OLAP、AI、向量检索等能力,走一体化负载路线;而 MySQL 受限于商业因素,仍以单机 OLTP 为主。OceanBase 是一款完全兼容 MySQL 的数据库,在一体化负载能力、性能、成本、扩展性、易用性等维度全面领先,我们希望不断完善 OceanBase 的生态,成为 AI 时代的“新一代 MySQL”。

图片

(二)OceanBase 桌面版发布

今天我们也发布了 OceanBase 桌面版,支持 Mac 和 Windows 系统,可以实现一分钟安装部署,和图形化管控界面。

(三)OceanBase 已成为最流行的中国数据库之一

今天,OceanBase 已经成为最流行的中国数据库之一,连续两年获得“墨天轮中国数据库流行度排行”第一,社区论坛每周新增帖子数超过 1500 个,同时也获得百万级社区用户的下载,集群部署超过 5 万个,并保持快速增长,年环比增长超过 400%。在 Github 上,收获 1333 个 contributor。OceanBase 被用户口口相传,但我们的理念一直都没有改变,我们希望通过好产品,和开发者、DBA 交朋友。

不得不提的是 OceanBase 的数据库大赛,今年已是第四届。在座的很多朋友作为评审团成员,见证了大赛的成长。我们致力于打造国内最高水平的数据库赛事,从赛题水平到开发者参与度,我们都力求做到业内领先,与开发者同行。

(四)多云原生架构:让开发者在全球主流云上无缝使用 OceanBase

开发者喜欢在云平台上使用 OceanBase,OceanBase 的多云原生架构为开发者在全球主流云平台提供无缝支持。在国内,OceanBase 兼容阿里云、腾讯云、华为云等主流基础设施,今年新增了对百度智能云的支持。在海外,我们已支持 TCP 协议,支持亚马逊云,并通过对象存储模式进一步提升性价比。同时,OceanBase 也深度融入多云平台的开放生态,从数据写入、同步到开发工具、可视化运维等,构建了一套完整的技术链路。

(五)OceanBase 即将开启一体化产品形态

AI 时代我们需要的是一体化数据底座,它的底层需要实现单机分布式一体化与云上云下一体化,用一套数据底座统一支持 SQL、AP 和 AI 负载。MySQL 社区曾孕育了庞大的技术生态,OceanBase 希望成为 AI 时代的“新一代 MySQL”,让数据处理更简单、更智能、更具扩展性!

以上就是我今天的分享,谢谢大家!


欢迎免费开通 OB Cloud ,体验 最新发布的 PowerRAG 能力 >>

注意:请开通分析型实例,选择 阿里云-杭州 地域。

http://www.xdnf.cn/news/733159.html

相关文章:

  • Armv7l或树莓派32位RPI 4B编译faiss
  • @Pushgateway自定义脚本推送数据
  • C++继承权限与访问控制详解
  • 解决win自动重启(自用,留链接)
  • Express教程【002】:Express监听GET和POST请求
  • 基于CAPL的DDS子消息解析- Data
  • golang 基于redis实现集群中的主实例选举
  • Nginx网站服务:从入门到LNMP架构实战
  • 生动形象理解CNN
  • 文件雕刻——一种碎片文件的恢复方法
  • 为什么建立 TCP 连接时,初始序列号不固定?
  • 日志技术-LogBack、Logback快速入门、Logback配置文件、Logback日志级别
  • Kubernetes 入门:安装 kubectl 并掌握基础命令
  • RK3568 OH5.1 编译运行程序hellworld
  • (22)大文件流式处理
  • 五星级酒店技能比赛主持稿串词
  • framework之慕课大巴
  • PCL 渲染显示
  • 电子电路:初步认识4013D触发器
  • 【深度剖析】义齿定制行业数字化转型模式创新研究(上篇3:数字化转型动机分析)
  • 实验设计与分析(第6版,Montgomery)第5章析因设计引导5.7节思考题5.13 R语言解题
  • 人工智能编程学习心得:从零基础到独立开发的蜕变之路
  • 副本(Replica)在Elasticsearch中扮演什么角色?
  • 算力租赁革命:弹性模式如何重构数字时代的创新门槛​
  • MATLAB项目实战:阻尼振动与数据拟合项目
  • 大模型长对话中上下文无法承载全部历史,如何压缩或提取重点
  • 2025Mybatis最新教程(二)
  • 什么是知识蒸馏?如何做模型蒸馏?结合案例说明
  • 电子电路:深入了解4013D触发器的机制和原理
  • 加强LLM防御以实现企业部署