智算中心的搭建标准
智算中心的搭建标准主要涉及以下几个方面:
- 开放标准:
- 硬件与软件开放:从硬件到软件、从芯片到架构,都应采用开放、标准的技术。例如,硬件支持如 OCP、ODCC、Open19 等开放社区标准,软件采用如 OpenStack、K8s、Hadoop、TensorFlow 等开源基础软件。
- 建设模式与应用服务开放:建设模式应具有开放性,鼓励不同企业和机构参与。应用服务方面,通过开放接口和平台,使能各类开发者基于智算中心的资源进行应用开发和创新。
- 集约高效:
- 超大规模建设:智算中心通常需要具备较大的规模,以实现规模效应,降低单位算力成本,提高资源利用效率。
- 融合架构技术:采用融合架构,通过硬件重构实现资源池化,如 CPU 与 GPU、FPGA 等各种加速器紧密结合,异构存储介质形成存储资源池;通过软件定义实现业务自动感知和资源自动重构,提升计算性能和效率。
- 普适普惠:
- 服务大众:作为基础设施,智算中心要为智慧城市、智能制造、智能家居、智能医疗等行业提供算力服务、数据服务和智能服务,支撑各行业的智慧化转型。
- 降低使用门槛:通过提供一体化服务模式,以及低代码甚至无代码开发的 “智件”,让用户无需关注底层技术细节,就能便捷地使用智能算力、算法服务和个性化开发服务。
- 绿色节能:
- 采用节能技术:如液冷技术,相比传统风冷,能大幅降低能耗。此外,还可配合余热回收、相变储能等循环节能技术,提高能源利用效率。
- 降低 PUE 值:通过优化制冷、供电等系统,使智算中心的 PUE(电能利用效率)值尽可能接近 1,实现高效清洁的绿色发展。
- 安全可靠:
- 数据安全:建立完善的数据安全保护体系,采用身份认证、访问控制、加密传输、数据备份与恢复等技术手段,确保数据在采集、存储、传输和处理过程中的安全性和隐私性。
- 系统可靠性:采用冗余设计,如双路市电供电、备用柴油发电机组、多台服务器集群等,确保在部分设备出现故障时,智算中心仍能正常运行。同时,具备完善的监控和运维管理系统,实现故障的快速发现、定位和处理。