新型数据中心“6 新”参考架构,具体如下:
随着数据中心规模的不断增大,数据中心耗电量 将持续攀升,并带来供电、制冷等诸多挑战。首先, 在供电方面,绿电比例低、为保证可靠性带来的 电网利用效率低、供电损耗环节多以及使用大量 的柴发备用电源,最终实际用于 IT 的有效电力 普遍不足 80%。其次,在制冷方面,当前数据中 心大部分时间依靠压缩机制冷,制冷效率低下, 并且静态的制冷架构难以匹配算力快速的变化需 求。此外,数据中心产生的余热利用难,大量废 弃。应对这些问题和挑战,面向 2030,我们提 出了具备全天候零碳、极低的能源损耗、更灵活 弹性制冷等核心功能的新型数据中心参考架构。
面向 2030,新型供电系统通过采用长时储能、 氢燃料发电机、本地光伏等,与虚拟电厂形成“源网荷储”互动,使电网能够充分利用数据中心多 余的电力储备来满足不断变化的负荷需求,辅助 解决风电、光伏随机性和间歇性问题,提升大比 例清洁能源电网稳定性和利用效率,实现数据中 心近 100% 绿色供电。供电系统也将进一步融合, 减少损耗,数据中心中实际应用于计算的电力占 比将提升到 95% 以上。 面向 2030,新型制冷系统通过风冷、液冷兼容 性架构设计,支持风液动态灵活调配,能够更好 的匹配急剧增长的算力需求。通过降低传热温差, 因地制宜充分利用干空气、湖水等自然冷源,将 实现近 100% 自然冷却,制冷能效提升 2~3 倍。 由于余热品味提升及余热发电、余热配套产业合 理规划,100% 余热利用将成为可能。

当前,数据中心大多还是采用传统的计算、存储、 网络分层多级架构,每一层都独立围绕CPU、内存、 总线、硬盘等组件构成的完整计算机系统。该架 构普遍存在三堵“墙”问题,即:内存墙、I/O 墙 和算力墙。这些“墙”也造成了数据访问和搬移 速度瓶颈,且限制了大规模分布式水平扩展。 面向 2030,下一代新型数据中心计算架构,将从以 CPU 为核心的分层分级架构走向以数据为中心 的对等互联多样计算架构。该架构基于“内存语 义”构建统一的高性能、可编程、规模可扩展的 互联网络 / 总线(uBus Fabric),聚焦数据的搬移、 转换和分发,突破“内存墙”和“I/O 墙”,释放 CPU 和异构加速器算力,做到计算和网络深度融 合,共同构成一个高效的超级计算机系统。
正 如 每 台 计 算 机 都 有 操 作 系 统(Operating System,简称 OS)来调度 CPU、内存、硬盘等 硬件资源一样,数据中心也有“操作系统”来为 整个数据中心提供分布式调度与协调功能,实现 数据中心级弹性伸缩能力,它将数据中心的资源 当作一台计算机来调度。数据中心操作系统的发 展历经最早的物理机时代,到了当前的虚拟化 / 云化时代,未来将走向以应用为中心的时代。
物理机时代的数据中心操作系统独立于每个物理 服务器设备上,每台服务器上运行一个应用程序,这时单台服务器的性能限制了应用程序的部 署规模。虚拟化时代的数据中心操作系统以虚拟 机为单位,将资源提供给用户。虚拟化的操作系 统可以将一台高性能的服务器虚拟成多个虚拟 机,在物理上虚拟机共享宿主服务器的硬件资 源,而逻辑上各自独立,可在各虚拟出的服务器 上运行不同的应用,各司其职,互不干扰。如此 一来,大大提升了服务器的使用率,降低了数据 中心的运营成本。如今的数据中心操作系统里到 处都是虚拟化的身影,核心技术有 SDS、SDN、OpenStack 等等。但是,虚拟化构成的集群难以 运维,尤其是出了故障后,很难分析出故障原因 和位置。
面向 2030 越来越多元化的应用场景,用户希望 能够直接获取资源、快速启动、服务可以无限扩 展、应用易于迁移。这时一切以应用为中心,将 数据中心甚至需要将多个数据中心的算存网资源 进行整合,CPU、NPU、GPU、内存和 I/O 这些 基本资源都进行池化,根据各个应用,按需分配。 并且,人工智能、科学研究以及元宇宙等新兴领 域快速崛起都对算力提出了更高要求。据预测, 未来 3~5 年,十万亿、百万亿参数的 AI 大模型 将出现,单中心算力将无法满足 AI 训练的需求, 需要通过集群方式突破单点算力的性能极限。如 何打破数据中心物理上的“四面墙”,实现跨 DC 集群算力资源灵活调度和快速应用部署,成 为了产业界共同关注的热点。 要突破单个 DC 的资源和平台限制,使能大规模 多中心分布式应用。首先,要构建跨多中心间的 高速互联网络,实现域内多个数据中心间的超低 时延、超大带宽、超高可靠的互联,充分保障数 据和任务的快速调度流转。其次,要构建以应用 为中心的下一代数据中心操作系统,一方面能够 提供跨 DC 硬件资源的抽象与协同,充分释放硬 件能力;另一方面能够提供诸如实例精细画像、 负载动态监测、AI 性能 QoS 感知以及柔性资源 调度等精细化、智能化的资源统筹管理功能,提 升全局能效;最后要能够提供大规模分布式应用 部署工具和运行框架,使能分布式应用的高效运 行和快速部署。
面向 2030,数据跨域流通的诉求越来越强烈, 但存在效率、安全、协同、管理等挑战:一是存 在大量数据孤岛,缺乏数据全局视图,导致数据 利用率低,价值难以挖掘;二是缺乏分级的热温 冷数据流动技术,数据中心间数据流动困难;三 是跨域数据协同困难,缺乏跨地域统一元数据管理,无法支撑数据并行分析;四是数据存储效能 不高,数据存储成本高,数据处理性能不足以支 撑跨域查询和分析。由此,需要一个跨域、跨 DC、跨存储形态的逻辑统一的数据湖,结合数 网大脑,实现数据全局可视、跨域安全高效流通 和自动分级最优放置。

未来,随着应用场景的多元化,对数据中心功能 定位也提出了新要求:数据中心正在由通用数据 中心占主导,演变为通算中心、智算中心、超算 中心,甚至由光计算、量子计算等共同构成的多 类型数据中心共同发展的新局面,数据中心间协 同,以及云边协同的体系将不断完善。以应用为 驱动,多种类型的数据中心协同一体,共同提供 算力服务的模式,将成为数据中心算力供给重要 形态,持续支撑数字经济的发展。
新型数据中心不再是一个单独孤立的数据汇聚处 理中心,而是泛在普惠算力服务基础设施的一部 分,是整个社会化算力网络的有机构成单元,需 要和外部进行更广泛的协同,广泛参与到社会生 产生活的各个领域并实现全面赋能。 新型数据中心需要一个更加开放的协同架构,让 所有数据中心在遵循统一标准的基础上,开放算 力协同、数据协同、作业协同等接口,并能够与外部的算力共享交易平台、数据共享交易平台、 作业需求分配平台等可信共享交易平台进行快速 对接,无缝参与到社会化普惠算力网络的分工协 作当中,共同实现“人人”为“人人”的开放共 享经济模式,支撑千行万业智能化急剧增长的算 力需求。