以下是我对智算技术发展关键词的概括总结。
存算一体作为一种新型算力,是突破 AI 算力瓶颈和大数据的关 键技术。与以往的冯诺依曼架构相比,打破了由于计算单元与存储单 元过于独立而导致的“存储墙”(CPU 处理数据的速度与存储器读写 数据速度之间严重失衡的问题,严重影响目标应用程序的功率和性 能),达到用更低功耗实现更高算力的效果。作为可 10 倍提升单位 功耗算力的颠覆性技术之一,存算一体有望降低一个数量级的单位算 力能耗,在 VR/AR、无人驾驶、天文数据计算、遥感影像数据分析等 大规模并行计算场景中,具备高带宽、低功耗的显著优势。目前主流 的实现方案包括:一是利用先进封装技术把计算逻辑芯片和存储器 (如 DRAM)封装到一起;二是在传统 DRAM、SRAM、NOR Flash、NAND Flash 中实现存内计算;三是利用新型存储元件实现存算一体。当前 存算一体技术仍处于早期阶段,我国存算一体芯片创新企业与海外创 新企业齐头并进,在该领域的先发制人,为我国相关技术的弯道超车 提供了巨大可能性。
一云多芯是指用一套云操作系统来管理不同架构的硬件服务器 集群,可以支持多种类型的芯片,解决不同类型芯片共存所带来的多 云管理问题,最大限度利用云上资源池的强大算力。作为 IT 产业链承上启下的关键环节,向下纳管和兼容底层各种芯片、整机、操作系 统等软硬件基础设施,向上支撑大数据、人工智能、物联网、5G 等新 一代企业级应用,有效规避算力孤岛,逐步实现从算力的并存到算力 的统一。一云多芯通过纳管不同指令集的芯片,包括 CPU、GPU、DPU 等,为各类应用场景提供异构多元化的算力支持,满足智算业务高性 能计算和数据处理要求,助力算力平台建设标准化、统一化、服务化。 中国电信云骁智算平台基于天翼云全栈自研操作系统,打造一云六芯, 全面支持主流国产芯片。阿里飞天操作系统正在全面兼容 X86、ARM、 RISC-V 等多种芯片架构,实现一云多芯。
CPO(共封装光学)是光模块未来的一种演进形式,被视为 AI 高 算力下高能效方案。CPO 是指把光引擎和交换芯片共同封装在一起的 光电共封装,使电信号在引擎和芯片之间更快传输,缩短光引擎和交 换芯片间的距离,有效减少尺寸,降低功耗,提高效率。800G 光模块 可提高服务器之间互联密度,在同等算力下计算效率倍增,高效支撑 AI 大模型 100%释放算力。随着 AIGC 发展趋势明朗,高算力需求催化 更高速率的 800G/1.6T 光模块需求,LightCounting 预测,硅光模块 有望在 2025 年高速光模块市场中占据 60%以上份额。多家厂商也开 始大力研发用于数据中心的硅光模块,如新华三发布 51.2T 800G CPO 硅光数据中心交换机,单芯片带宽 51.2T,支持 64 个 800G 端口,支 撑 3.2 万台节点单个 AIGC 集群,单位时间内 GPU 运算效率提升 25%,硅光+液冷技术融合实现单集群 TCO 降低 30%,满足大模型智算网络 高吞吐、低时延、绿色节能需求[23]。

RDMA (Remote Direct Memory Access) 是一种远程直接数据存 取技术,可以有效降低多机多卡间端到端通信时延,满足智算网络的 低时延、大带宽需求。当前 RDMA 技术主要采用的方案为 InfiniBand 和 RoCEv2 两种。InfiniBand 网卡在速率方面保持着快速的发展,主 流 200Gbps、400Gbps 已规模商用。当前用于大模型训练的智能算力 节点内部大多采用 InfiniBand 技术构建数据中心内高性能网络,提 供高速连接,以及微秒级的时延、无丢包,避免 GPU 计算等待数据传 输导致算力效率的下降。目前 InfiniBand 技术为英伟达独家控制, 成本偏高、开放性较弱,因此业界也在考虑用 RoCEv2 等无损网络技 术替代 InfiniBand 技术,但存在配置复杂、支持万卡规模网络吞吐 性较弱等问题。
传统 CLOS 网络架构面临多级转发导致时延高、设备低缓存、易 丢包等挑战,目前业界主要围绕优化 CLOS 架构、DDC 等开展研究。
(一)云商普遍采用多轨道流量聚合优化面向大模型训练的三层 CLOS 架构,确保在大规模训练时集群的性能和加速比。在多轨道网 络架构中,大部分流量都聚合在轨道内传输(只经过一级 ToR switch), 小部分流量跨轨道传输(需要经过二级 switch),让任一同号卡在不 同机器中的通信中的跳步数尽可能少,大幅减轻了大规模下的网络通 信压力。

(二)AT&T、博通推出 DDC(Disaggregated Distributed Chassis) 架构,支持 AI 超大规模集群弹性部署。DDC 将传统软硬一体的框式 设备组件进行拆解,使用若干个低功耗盒式设备组成的集群替换框式 设备业务线卡和网板等硬件单元,盒式设备间通过线缆互联。整个集 群通过集中式或者分布式的 NOS(网络操作系统)管理,以软件化的 方式灵活部署于任何一台标准服务器或多台服务器,能有效节省部署 成本,提升系统冗余性和可靠性。DDC 架构简单,支持弹性扩展和功 能快速迭代、更易部署、单机功耗低,可以根据 AI 集群大小来灵活 选择。基于 VOQ+Cell 机制实现端到端流量调度,充分利用缓存大幅 减少丢包,且解决了 ECMP 策略下流量负载不均衡的问题,能有效提 升宽带利用率。但由于 DDC 硬件要求专用设备、大缓存设计增加网络 成本等问题,目前可交付的 DDC 产品较少,有待进一步优化。
智算在数据迁移、同步等环节,千卡以上规模的算力输出最低往 往仅有 40%左右。随着大模型规模的增长,需要考虑千卡甚至万卡规 模的 GPU 集群训练,在多个 GPU 上进行并行计算,将训练任务分解为 多个子任务并同时训练,以提升训练速度和效率。针对大规模并行计 算的特点,数据并行、模型并行、流水并行、混合专家、增量更新等 一系列优化算法和技术有效提升了算法的运行效率和并发性能以及 算力的资源利用率,支撑更高更复杂的训练速度和效率。当前业内普 遍采用多种并行方式联合优化的策略,如在机内做张量并行,同时配 合数据并行进行分组参数切分操作,在多组机器组成流水线并行,以 此来承载千亿甚至万亿的模型参数。
AI 服务器的功率较普通服务器高 6-8 倍,通用型服务器原来只 需要 2 颗 800W 服务器电源,而 AI 服务器的需求直接提升为 4 颗 1800W高功率电源,当前商汤、阿里等高性能 AI 服务器已达到 25kw 以上, 而风冷空调的极限在 25-30kw[25]。传统风冷面临散热不足、能耗严重 的问题,液冷技术成为了降低数据中心 PUE 的优解,其在 15kW/柜以 上时更具经济性优势。浸没式和喷淋式液冷实现了 100% 液体冷却, 具有更优的节能效果,PUE 均在 1.2 以下,甚至可低至不足 1.1;浸 没式液冷散热节能优势明显,在超算、高性能计算领域取得了广泛应 用。在机架功率密度要求和 PUE 限制下,液冷已成为智算中心制冷必 选项,预计 2025 浸没式液冷数据中心占比将达 40%[26]。