2025云智算技术白皮书
1. 云智算的演进背景
传统云计算面临三大挑战:
- 算力需求激增:AI大模型训练需十万卡级GPU集群,资源调度能力不足。
- 网络性能瓶颈:TB级参数同步对低时延、高吞吐要求远超传统网络架构。
- 服务形态单一:IaaS/PaaS无法覆盖AI全链路需求(数据处理、训练、推理)。
云智算通过算网深度融合和全栈智能化,升级为下一代云计算范式。
2. 云智算体系架构
四层架构升级:
- AI IaaS:算网一体基础设施,支持异构算力(云边端)统一编排与即取即用。
- AI PaaS:提供AI开发全流程工具链,降低技术门槛,提升创新效率。
- MaaS:汇聚多领域模型与智能体,加速AI行业渗透。
- AI SaaS:覆盖多样化场景的智能化应用,赋能千行百业。
3. 关键技术方向
-
计算技术
- 国产算力芯片(如大云磐石DPU):优化带宽、时延,构建自主生态。
- 智算超节点:突破GPU互联瓶颈,支持64卡高速互联,国产化替代。
- 算力原生:统一异构芯片接口,实现“一次开发,跨芯部署”。
-
存储技术
- 训推多级缓存:利用CXL技术实现GPU显存、主存、网络存储协同,提升资源利用率。
-
网络技术
- 卡间互联(OISA协议):支持百纳秒级时延与无损传输。
- 机间互联(GSE架构):革新以太网协议,满足十万卡集群组网需求。
-
算网一体技术
- 算力路由:动态感知算网状态,优化资源调度。
- 在网计算:卸载集合通信任务至网络节点,减少数据传输压力。
-
AI开发平台
- 低代码/无代码工具:集成大模型能力,实现智能体自主开发。
- 向量/多模数据库:优化非结构化数据处理,支撑RAG等场景。
-
安全可信
- 硬件级可信计算(TPM/TCM)、数据全生命周期防护、AI驱动的模型合规检测。
-
绿色节能
- 解耦液冷技术:降低数据中心能耗;
- 算电协同:动态匹配算力与绿电供给,实现余热回收。
4. 未来技术展望
- 存算一体:缓解“存储墙”问题,提升大模型推理效率。
- 量子计算:探索量子神经网络,赋能材料模拟、组合优化等领域。
- 模型分发网络(MDN):云边协同架构,支持低时延、高并发推理服务。
5. 中国移动的倡议与定位
- 定位:作为“供给者、汇聚者、运营者”,推动算网智脑升级。
- 倡议:联合产学研用各方,共建技术标准、攻关核心难题、创新应用场景、繁荣产业生态。
核心价值
云智算通过技术融合(AI+算力网络)、架构升级(四层服务)和生态开放,推动AI普惠化,助力千行百业智能化转型,同时兼顾绿色低碳与安全可信。