2010s 云厂商逐步成为以太网光模块市场最重要的客户群体
以太网光模块市场在过去十几年里经历了快速扩张。根据 LightCounting 的统计,全球以太 网光模块出货金额从 2010 年的 7.29 亿美元增长至 2022 年的 50.82 亿美元,对应期间的 CAGR 为 18%;其中高速率产品贡献了绝大部分的增量,全球 100G 及以上速率的光模块 出货金额由2010年的0.14亿美元攀升至2022年的43.39亿美元,对应期间CAGR为62%, 高速光模块市场规模持续扩张的背后是云厂商需求的推动。

光模块行业下游客户结构的变迁:从企业主导转向云厂商主导。2007 年前后,谷歌在其数 据中心内开始部署 10G 光模块,拉开了云厂商对光模块采购需求的序幕,彼时光模块最大 的下游市场为企业数据中心(即传统数据中心)。根据 LightCounting 于 2023 年 7 月发布 的《Mega Data Center Optics》中的数据,2016 年全球以太网光模块的销售额中,企业客 户贡献了 42%的份额,仍位居第一位,其次分别为云厂商、电信运营商,分别贡献了 36%、 22%的份额。2022 年,云厂商在全球光模块市场的销售额中占比攀升至 67%,超越了企业 与电信领域,成为光模块下游第一大客户群体。
云厂商需求特征:更高的速率、更短的迭代周期。相比于企业、电信市场客户,云厂商除 了对光模块需求量更大以外,其数据中心中通常采用了更高速率的光模块,且升级迭代的 周期更短。根据 LightCounting 的统计,2016 年云厂商在数据中心内部开始批量部署 100G 光模块,2018 年 100G 光模块占云厂商需求金额的比重已达 81%。2018~2019 年以谷歌、 亚马逊为首的云厂商开始在数据中心内导入 400G 光模块,2022 年云厂商数据中心内 200G、 400G 光模块已成为主流,合计占其当年需求金额的比重为 67%。另一方面,2022 年全球 200G 及以上速率光模块的需求中,谷歌、亚马逊、Meta 三家厂商的份额合计占比超 85%电信市场方面,2018 年已主要采用 100G 光模块,占其当年需求金额的比重约 64%;2022 年仍主要采用 100G 速率,占其当年需求金额的比重为 71%。企业客户方面,2018 年主要 使用 10G 光模块,占其当年需求金额的比重为 42%,同期已开始少量部署 100G 光模块; 至 2022 年企业数据中心内 100G 光模块的需求占比 40%,成为主流,更高速率的产品仍未 批量部署。
“移动互联网兴起+企业上云趋势”是云厂商过去需求增长的核心驱动力
移动互联网经历蓬勃发展,网络带宽需求不断提升。在智能手机的普及、3G/4G/5G 网络技 术的不断发展、上网流量单位成本的快速下降等多重因素的推动下,2010s 移动互联网经 历了蓬勃发展,全球网络活跃用户数量持续攀升;另一方面,从移动 App 类别的发展来看, 从最初的搜索(Google)、社交(微信、Facebook)、长视频(YouTube)等逐步丰富至图 片分享(Instagram)、短视频(抖音、TikTok)、网络直播(抖音、小红书)等。以上发展 趋势均对网络带宽提出了更高要求,其中云计算作为移动互联网的核心技术底座之一也得 到了充分发展,云基础设施呈现持续升级的态势。
全球数据流量经历迅速增长,云计算所承载的比重持续提升。过去十余年中,随着移动互 联网、物联网等产业的快速发展,数据量和数据应用不断增长,全球数据中心的流量迅速 攀升。根据思科于 2011 至 2018 年发布的全球云指数系列报告,全球数据中心合计流量由 2010 年的 1141PB 增长至 2016 年的 6819PB,期间的 CAGR 达 29.1%。从结构来看,2010 年全球数据中心流量中,云计算承载的比重为 11%,传统数据中心占比为 89%;2013 年云 计算占比首次超过传统数据中心,达到 54%;发展至 2016 年,云数据中心承载的流量占 比已经达到 88%。
企业“上云”是 2010s 明确的产业趋势。根据文献《大规模数据中心内云计算网络演变的 研究及分析》,云计算采用虚拟化、分布式计算、分布式存储、资源管理等技术,将弹性、 可共享、可伸缩性的软硬件资源池化,再通过网络等方式向客户提供按需自助、可计量的 服务。云计算作为一种 IT 基础设施交付和使用模式,具有灵活、按需自服务、高扩展性、 低成本等特点,能有效降低企业的运营成本,节省投资。2010s 企业上云为全球明确的产 业趋势,根据思科发布的全球云指数系列报告,2010 年 79%的工作负载部署在传统数据中 心,云数据中心工作负载占比仅 21%;2013 年云数据中心工作负载量超过传统数据中心, 达 53%;截至 2016 年,已有 83%的工作负载部署在云数据中心。我们认为在该趋势的演 进下,云厂商逐渐成为了主导光模块、交换机等云网基础设施市场的客户群体。
云计算的发展加速了数据中心流量(尤其是东西向)的攀升
在云计算时代,流量模式发生了较大变化,由传统数据中心中的南北向流量模式转变为了 云数据中心的东西向流量模式。东西向流量指数据中心内部的数据传输,由于网络拓扑图 中数据中心内部流量通常横向绘制,“东西向”说法由此而来。南北向流量则描述进出数据 中心的数据流,通常涉及数据中心与外部客户端之间的通信。根据此前 Facebook(现 Meta) 于 2013 年的统计,用户在朋友圈一个“点赞”动作,会发起到数据中心 1KB 的 HTTP 请 求,而在数据中心内部则放大为 930KB 的并行操作,包括 88 次 Cache 查找(648KB), 35 次数据库查找(25.6KB)和 392 次后端 RPC 调用(257KB)。
更大的数据中心东西向流量叠加应用端的快速发展,驱动云厂商需要向数据中心内部匹配 更大的互联带宽。根据 LightCounting 于 2021 年发布的报告《LightCounting Mega Data Center Optics》中的模型,云计算数据中心内部的带宽需求约为 DCI(数据中心互联)的 30 倍以上。我们认为相比于传统数据中心,云数据中心因为有着更大规模的东西向流量, 是导致云厂商通常需要更多的、更高速率的光模块的核心原因,同时随着移动互联网用户 侧需求的持续增长,也带来了云数据中心内部光模块向更高速率的演进。

分布式计算+虚拟化技术,带来云数据中心更大的东西向流量。根据文献《云数据中心中软 件定义网络的研究》中的分析,云计算数据中心中东西向流量更大主要的原因包括:1)分 布式计算模式的引入。云计算采用分布式计算,如大数据处理、大规模搜索引擎等,数据 中心内不同的服务器间需要相互协作。因此,不同的服务器之间存在着大量数据流量;2) 虚拟机动态迁移。虚拟化技术被广泛地应用于云计算数据中心,虚拟机的动态迁移成为数 据中心中的重要场景。虚拟机动态迁移指可以将一个运行中的虚拟机在保障虚拟机所承载 业务连续性基础上,从一台物理主机移动到另外一个。在迁移过程中,业务数据、配置数 据等在虚拟机间的流动也带来“东西向”流量的增加。
东西向流量占数据中心总流量的比重超 70%。根据思科云指数系列报告,2010 年至 2016 年全球数据中心东西向流量由 887PB 增长至 5143PB,期间 CAGR 达 34%;在 2010 年至 2016 年全球数据中心的流量增量中,东西向流量的贡献达 75.0%。根据思科于 2018 年的 预测,2021 年全球数据中心内部流量占总流量 71.5%,处于主导地位;而数据中心间/数据 中心至用户端的流量占比仅分别为 13.6%/14.9%。
云数据中心的东西向流量主要集中于机架内。值得注意的是,上文中思科所统计的数据中 尚不包括机架内的流量。Theophilus Benson 等人于 2010 年发表的论文《Network Traffic Characteristics of Data Centers in the Wild》中分析了传统数据中心(企业、学校等)以及 云数据中心内部流量特征的差异,一个鲜明的对比即云数据中心中,机架内所产生的数据 流量占比平均达近 75%,而传统数据中心则不足 50%。我们认为换句话而言,在传统数据 中心的内部流量中,机架内流量与机架外流量大致相等;而云数据中心中,机架内的数据 流量接近机架外流量的三倍,即如果考虑到机架内流量,云数据中心的东西向流量的占比 会较传统数据中心有进一步明显提升。
“网络架构升级+端口带宽提速”是解决数据中心流量瓶颈的唯二法门
叶脊网络架构渗透率提升,带来更多光模块需求。云时代背景下,云数据中心的网络架构 由传统的三层架构向大二层架构或叶脊(Spine-Leaf)架构演进。传统数据中心的三层设计在 过去很适合南北向流量的传输。但是对于高东西向流量需求的云数据中心,三层结构存在 高延迟、可扩展性受限等问题。云时代数据中心的叶脊架构形成了一个类似于叶脊的拓扑 结构,每个叶子(Leaf)交换机都连接到每个脊柱(Spine)交换机,东西向流量只需经过 两个物理跳转,从而降低了延迟和丢包率。在叶脊网络架构下,由于每台脊交换机都与所 有叶交换机相连,带来连接端口呈倍数增加,这也带来了云数据中心中光模块需求量的显 著提升。
服务器网卡端口带宽的升级,是数据中心内部网络提速的“起点”。数据中心东西向流量的 快速增长,驱动服务器所搭载的网卡带宽提升。根据 Data Center Knowledge 于 2018 年 9 月 18 日发布的一篇报道,2010 年常见的网卡速率是 1GE,其后五年内 1GE 和 10GE 网卡 共同占据市场。2014 年谷歌、微软、Arista 网络、博通和 Mellanox 等公司成立 25G 以太 网联盟,推动 IEEE 于 2016 年制定了 IEEE 802.3by 25G 以太网标准。数据中心可通过四 个 25G 通道实现 100G 网络,相比于 10G/40G 网络,25G/100G 网络拥有更高的网络带宽、 实现光纤复用、端口向下兼容等优势,被云厂商视为下一代升级主流。2016 年至 2020 年 间,通用服务器网卡速率从 10GE 演进到 25GE,并快速推进到如今的 100GE。因为服务 器网卡在数据中心内部的网络中属于接入层,故其带宽的升级会相应地带动交换机、光模 块速率的提升。
交换机 ASIC 芯片保持两年一代的升级周期。云厂商数据中心内部流量的快速增长带来服 务器网卡升级背景下,所匹配的交换机速率需要同步升级。以博通为大型云厂商提供的 Tomahawk 系列 ASIC 芯片(脱胎于博通的 Trident 产品线)为例,2010 年以来保持着两年 一代的升级周期。2022 年 8 月,博通宣布推出 Tomahawk 5 芯片,带宽达到 51.2T,较其 2010 年时期产品的 640G 带宽已提升了 80 倍。
光模块速率保持持续提升态势。随着服务器网卡、交换机带宽的持续迭代升级,光模块速 率也向着更高速率发展。云厂商随着自身业务的扩张,保持着较快的光模块更迭周期。以 谷歌为例,2010 年以来谷歌保持着 3~4 年一代的升级周期(该周期略长于交换机 ASIC 芯 片,我们认为或因交换芯片从产品推出到成熟量产,存在 1~2 年的时间差;另一方面,云 厂商或不会采购每一代交换机芯片,存在跳代升级的情况),根据 LightCounting,2010 年 谷歌率先在数据中心内部小批量部署 40G 光模块,至 2024 年有望开始小批量部署 1.6T 光 模块,是全球高速率光模块迭代的引领者。
2016 年云厂商对 100G 光模块的需求集中释放。100G 光模块是云厂商光模块升级历史中 的标志性产品之一。随着 25G 服务器网卡、100G 交换机,以及 100G 光模块上游关键原 材料技术的成熟,2016 年云厂商数据中心内部开启了 100G 光模块的集中部署,推动当年 全球 100G 光模块采购金额同比增长 159%至 11 亿美金,占当年总体光模块市场的比重同 比提升 21pct 至 44%。在此后的 2017~2018 年,云厂商对于 100G 光模块的采购金额仍保 持增长。2019 年在下游客户去库存背景下,100G 光模块价格明显下滑,导致采购金额呈 现波动。而随着 2020 年价格的企稳,100G 光模块市场重回增长。另一方面,随着 2018~2019 年谷歌、亚马逊陆续开启 400G 光模块的部署,为光模块市场注入了新的增长动力。
从北美各家云厂商对光模块的历史需求量特征来看,谷歌、Meta 对历代产品的部署周期通 常更短,其中谷歌通常是新一代光模块的先行者(如上文所述),我们认为这或与谷歌数据 中心内部采用光交换机方案有关,在进行光模块的升级换代时不需要光交换机的重大升级 做配合,因此上量节奏可以更快;而亚马逊对每一代光模块的部署节奏更持久,即从批量 部署(年需求量达到 1 万只)开始至需求达到峰值的时间更长,我们认为或与其基于性价 比的考虑,以及其数据中心内部交换机等配套网络设备的迭代周期有关。我们认为不同云 厂商需求的“错峰”,有望在一定程度上熨平光模块总体需求的周期波动幅度。 从具体数据来看,例如 100G 光模块时代,根据 LightCounting 数据,谷歌、Meta、亚马逊 同时自 2016 年开始批量部署,至 2018 年谷歌需求达峰(201 万只),2019 年 Meta 需求 达峰(171 万只),2020/2021 年亚马逊需求达峰(160/161 万只);200G/400G 时代,谷 歌于 2018 年批量部署 400G,2021 年需求达峰(142 万只);亚马逊于 2019 年批量部署 400G,至 2023 年预计需求量仍处于上升通道;Meta 于 2019 年批量部署 200G,至 2022 年需求达峰(445 万只)。历史上微软对以太网光模块的采购需求相对较少,我们认为或与 微软的单一数据中心的规模多以中小型为主有关,但也由此带来了较大的 DCI 需求,如微 软是目前全球 400GZR 光模块市场最大的客户之一。

“多重优势+产业转移”使得过去十余年国内光模块厂商快速崛起
切入头部云厂商供应链,近十年来国产厂商在全球光模块市场中崛起。近十年来,国产光 模块厂商凭借自身的成本优势、研发能力、交付能力以及满足客户要求的快速响应能力, 逐步切入到全球头部云厂商的供应链体系,跟随着优质客户在全球光模块市场中的地位取 得大幅提升。据 LightCounting 数据,2010 年全球光模块销售额前十大供应商中,国产厂 商仅有武汉电信器件一家上榜,而 2022 年上榜中国厂商达到 7 家,分别为旭创(和 Coherent 并列第一)、华为海思(第四)、光迅科技(第五)、海信宽带(第六)、新易盛(第七)、华 工科技(第八)、索尔思(第十,被华西股份收购);中国厂商在光组件和光模块市场上份 额从 2010 年的 15%上升至 2021 年的 50%。其中中际旭创排名自 2021 年起与 II-VI(现 Coherent 公司)并列全球第一位。
缩放定律指引下,AI 训练侧投入或仍将保持提升
缩放定律的指引下,AI 大模型参数规模持续快速提升。2020 年,OpenAI 首次提出了缩放 定律(Scaling Law),核心结论之一是 AI 大模型的性能会随着参数数量、数据集大小和计 算量的增加而提高,这意味着通过提高模型的参数量、扩大数据集规模,模型的性能可以 获得有预测性的提升;另一方面,谷歌的研究表明,当模型的参数量小于某一规模时,在 部分复杂任务中的表现接近随机,而当规模超过某个阈值后,模型的性能会显著提升,这 种现象即“涌现”。在缩放定律的指引下,AI 大模型的参数规模呈现持续提升的趋势,根据 华为发布的《星河 AI 网络白皮书》,在过去的 6 年时间里,AI 大模型参数量从最初 Transformer 的 6500 万增长到 GPT4 的 1.8 万亿,增幅超过 2 万倍。
AI 大模型训练侧所需算力正经历快速增长。根据文献《Estimating Training Compute of Deep Learning Models》,AI 大模型训练侧所需算力与参数规模*数据集规模呈正相关。随 着 AI 大模型参数规模以及训练数据集的不断增长,GPU 单卡算力的发展速度显著落后于模 型发展的算力需求,因此 GPU 大规模集群逐步成为了大模型训练的核心算力底座。市场担 忧在 AI 应用尚未出现爆款之前,大模型训练侧对于算力的需求或于 2024 年见顶,进而导 致光模块需求呈现明显周期性。我们认为:1)大模型的迭代仍在快速迈进,如多模态大模 型尚处于发展早期阶段,各厂商对于大模型训练的投入强度仍有望保持提升,训练端光模 块的需求有望持续饱满;2)AI 商用进展正在持续推进,逐步使 AI 产业形成闭环。我们认 为未来 AI 推理侧需求的释放,以及对于云计算侧需求的带动,均有望成为光模块市场新的 增长动力。 多模态大模型尚处于发展初期阶段,预计将带来更庞大的算力需求。当前单模态模型通常 只能处理单一类型的数据,限制了提取的信息量和多样性;而多模态模型可以同时处理来 自不同来源(例如语言、图像、音频等)的信息,并对它们进行联合理解和生成,能够克 服单一模态在任务特异性、数据限制和交互限制等方面的局限性,提高模型的性能和泛化 能力,对于 AGI 的实现有重要意义。多模态大模型的算力需求或显著高于纯文本模态模型, 根据半导体产业分析机构 SemiAnalysis 于 2023 年 8 月发布的预测,谷歌训练新一代多模 态大模型 Gemini 所需的算力或是训练 GPT-4 算力的 5 倍以上。我们认为多模态是 AI 大模 型未来发展的大势所趋,且当前尚处于初期阶段,预计未来多模态模型的训练侧仍将推动 算力需求的进一步释放。

此外,AI“对齐”亦有望带来额外的算力需求。我们认为未来随着 AI 大模型的不断发展, 监管领域也会释放出对于算力的需求。对齐(Alignment)即确保 AI 追求与人类价值观相匹 配的目标,确保 AI 以对人类和社会有益的方式行事,不对人类的价值和权利造成干扰和伤 害。随着 AI 大模型的快速迭代,产业界也在致力于设计解决方案来指导或控制 AI 大模型的 潜在风险,以防止其失控。OpenAI 曾在 2023 年 7 月表示,将动用现有算力的 20%以研究 对于 AI 的对齐机制,例如训练另一个智能体来协助评估、监督 AI,从而实现超级对齐;2023 年 11 月上海交大生成式 AI 研究实验室(GAIR)发表的论文《Generative Judge For Evaluating Alignment》中,也提到了用 AI 监督 AI 的思路,其开源了一个 130 亿参数规模 的大模型 Auto-J,该模型能以单个或成对的方式,评估各类模型在解决不同场景用户问询 下的表现,旨在解决普世性、灵活性和可解释性方面的挑战。 AI 商用进展持续推进,推理侧需求有望释放。除 AI 训练网络对于光模块需求有望保持高位 以外,我们认为 AI 推理侧需求也有望随着 AI 应用的落地而涌现。根据微软在业绩说明会中 披露的数据,2Q23~4Q23(对应微软财年的 4QFY23~2QFY24)微软 Azure 及其他云服务 的收入同比增速中,AI 服务的贡献分别达 1%、3%、6%,则根据我们的测算,2Q23~4Q23 微软 Azure 及其他云服务的收入中,AI 服务贡献的收入分别达 1.5、4.2、9.2 亿美金,呈 现快速提升态势。另一方面,未来随着多模态大模型的推进,图片生成、视频生成等应用 的不断发展或对于 AI 推理网络吞吐量、通信带宽等要求进一步提升,有望带来高速光模块 需求的进一步释放。
AI 应用的涌现,有望带动 AI 所需云基础设施的升级。如今在云平台上开发 AI 大模型应用 已经成为各大科技厂商的共识。在 2023 年 12 月召开的创原会·2023 技术创新峰会上,中 国信通院云大所副总工陈屹力表示,云计算天然可以整合、调度异构算力,向 AI 大模型提 供灵活、弹性、高效的算力服务,令底层多元算力“物尽其用”,成为 AI 大模型强大的算 力支撑底座;另一方面,云原生可有效提升应用部署所需资源的复用率,使用户无需为闲 置资源付费,有效降低 AI 大模型的创新成本。因此,从 2023~2024 年来看,云厂商在 AI 侧基础设施的投资或对云计算侧投资造成一定“挤占”;而长期来看,在 MaaS(模型即服 务)不断发展的趋势下,随着 AI 应用的不断涌现,AI 所带来的云计算侧基础设施有望释放 持续的升级需求,以支持更大规模,更高性能的计算场景。当前时点 800G 光模块主要用 于 AI 训练网络中,我们认为云计算侧对于 800G 光模块的需求也将随着 AI 应用的发展而提 升。
AI 时代数据拥有更庞大的东西向流量,更严格的低时延要求
AI 数据中心的东西向流量将显著增长。在 AI 大模型分布式训练场景中,存在频繁的 All Reduce 操作,即在多个节点之间聚合和分发数据,例如目前主流训练框架之一的数据并行 训练中,通过使用该通信操作来实现所有进程间梯度的同步。随着 AI 大模型参数量的持续 攀升,由此也带来了 GPU 之间通信流量的显著增长。根据中国移动通信研究院发布的《面 向 AI 大模型的智算中心网络演进白皮书》,以千亿参数规模的 AI 大模型为例,从机内 GPU 通信角度看,模型并行产生的 All Reduce 集合通信数据量将达到百 GB 级别;从机间 GPU 通信角度看,部分集合通信数据也将达到百 GB 级别;由于网络能力和计算能力需要高度 匹配。云数据中心使用 CPU 计算,网络需求一般在 10Gbps~100Gbps;AI 超大模型训练 使用 GPU 训练,算力显著高于 CPU,目前互联网络需求已达 100Gbps~400Gbps。我们 认为随着 AI 时代的到来,数据中心东西向流量预计将较云计算时代显著增长。
优化通信策略是提升 AI 大模型训练效率的关键。我们认为在 GPU 集群卡间流量大幅增长 背景下,优化通信策略是提升 AI 大模型训练效率的关键。腾讯云副总裁王亚晨在 2023 年 6 月举办的《面向 AI 大模型的高性能网络》沟通会中提到,AI 大模型的运算实际上是一个 通信过程,一部分 GPU 进行运算后需要与其他 GPU 之间交互数据,通信带宽越大,数据 传输越快,等待时间就会越少,GPU 利用率越高。根据开放数据中心委员会 2021 年 9 月 发布的《总线级数据中心网络技术白皮书》,来到 AI 时代的数据中心,在计算、存储器件 性能大幅提升后,网络成为了数据中心内端到端的性能瓶颈。传统数据中心端到端时延中, 网络时延占比明显少于计算、存储;而当计算、存储性能提升后,网络时延的占比大幅提 升至 80%以上,成为亟需升级的“短板”。
端口吞吐量提升+胖树网络架构,高速率光模块需求快速增长
提升端口吞吐量以及引入新的网络架构是解决节点间通信瓶颈的重要途径。在 GPU 集群中, 通信主要分为两个部分:①节点内通信,指一个计算节点内 GPU 间的信息传输,如英伟达 引入 NVLink 代替 PCle,避免了服务器内部数据通过 PCIe 总线传输带来的瓶颈问题;②节 点间通信,指不同计算节点之间的信息传输,节点间通信通常由网卡和网络设备组成高性 能网络承载。提升端口吞吐量以及优化组网架构(减小阻塞比等)是提升节点间通信带宽 的重要方式,我们认为这也是近年来 AI 训练网络中对于 400G、800G 等高速率光模块需求 快速增长的核心原因之一。 AI 网络的端口吞吐量呈现持续提升趋势。以英伟达的方案为例,其通过升级服务器端口网 卡速率以提升 AI 训练网络节点间带宽。英伟达的 V100 服务器中,每个 V100 GPU 搭载一 张 CX-5 网卡(ConnectX-5),吞吐速率为 100Gb/s;后续发布的 A100、H100 方案中,分 别搭配 CX-6、CX-7 网卡,支持的速率分别为 200Gb/s、400Gb/s,较此前云厂商的通用服 务器所主流使用的 50G、100G 网卡有较大升级,而其中的 CX-7 网卡可搭配 400G 光模块, 对应的交换机侧则采用了 800G 光模块。基于英伟达历代网卡速率保持翻倍提升的趋势, 我们预计英伟达下一代 GPU 产品 B100 有望搭配 CX-8 网卡,支持 800Gb/s 速率。
无阻塞胖树架构被引入 AI 训练网络。无阻塞胖树(Fat-Tree)架构从叶子到树根,网络带 宽不收敛,其中的每个节点都需要保证上行带宽和下行带宽相等,能确保在多个层级间数 据传输的均匀分布,从而促进整体通信的平滑运行,同时能灵活扩展网络规模,因此Fat-Tree 架构较为适合用于 AI 大模型的训练网络中。
依照英伟达 IB 网络架构设计,我们测算 DGX H100 中 GPU:400G 光模块:800G 光模块 之间的配比为 1:1:2.5。英伟达采用的网络架构为 IB(InfiniBand)网络,是一种无阻塞 架构(胖树),网络侧自下而上可分为架顶交换机、叶交换机、脊交换机三层架构:1)服 务器层,每台服务器中含有 8 颗 GPU,每个 GPU 与一个 400G 网卡相连,通过一个 400G 光模块输出数据。2)架顶交换机和叶交换机层,分为上行和下行两个链路,上行/下行链路 均使用 800G 光模块作为连接,为保证足够的网络带宽,IB 采用无收敛的网络架构,交换 机的上行端口数与下行端口数相等,使用的光模块数也相等。3)脊交换机层,由于是最上 层架构,仅需下行链路,每个端口对应需一个 800G 光模块作为连接。综上,假设 GPU 用 量为 N 个,仅服务器层用到 N 个 400G 光模块,架顶交换机和叶交换机层上行、下行链路 共需 2N 个 800G 光模块,脊交换机层需 0.5N 个 800G 光模块。
谷歌的 TPU 集群中光模块需求的定量测算:2023 年 4 月,谷歌研究团队发表论文提到 TPU v4 superpod 中有 4096 张 TPU v4 芯片,具体由 64 个 4x4x4 的模块组成,这 64 张 TPU 形成一个 cube 结构。光模块用量方面,TPU v4 芯片配套的是 400G 光模块,每个 cube 有 6 个面,每个面上有 16 个链接,每个链接均会采用一只光模块,对应每个 cube 需要部 署 96 只 400G 光模块,而每个 cube 由 64 张 TPU v4 芯片组成,即 TPU v4 与 400G 光模 块用量比例为 1:1.5。进一步地,谷歌亦发布了 TPU v5p,我们判断引入了更大的互联带宽, 若仍沿用上述提到的 cube 组网结构,TPU v5p 与 800G 光模块的配比亦有望达到 1:1.5, 从数量来看该配比或小于上文中 H100 的组网方案(1:2.5),但考虑到 H100 的算力约是 TPU v5p 的 4.3 倍(BF16 下,前者算力为 1979 TFLOPs,后者为 459TFLOPs),因此谷歌 TPU 集群的单位算力所匹配的对外光互联带宽更大。

GPU 卡间的光互连带宽仍有望保持提升。继 DGX H100 之后,英伟达于 2023 年 5 月推出 DGX GH200,把 256 个 Grace Hopper 超级芯片连接为一起,可提供 1EFlops 的 FP8 Transform Engine 算力,目标使用场景为存在 GPU 内存容量瓶颈的 AI和 HPC 应用。GH200 首次把 Grace Hooper 超级芯片与 NVLink Switch System 配对使用:1)Grace Hooper 超 级芯片采用 NVLink-C2C 技术,可实现超快速的芯片到芯片、裸片到裸片互联,使得 Grace CPU 和 Hopper H100 GPU 构成一个完整的系统,并实现内存的相互访问,而不需要沿着 “CPU-内存-主板-显存-GPU”的 PCIe 路线,功耗效率、带宽大幅提升。2)NVLink Switch System 使得系统中的 GPU 能够以全频宽互连,并在丛集中协同合作,可为运算密集的工 作负载提供更高的频宽并减少延迟。两者配对使用,使得内存容量大幅上升,突破存储瓶 颈,在巨型内存 AI 工作负载下性能表现突出。
DGX GH200 集群中,单颗 GPU 对外互联带宽提升至 450GB(单向)。GH200 网络架构 亦采用胖树无阻塞结构,包括 L1 交换机和 L2 交换机层,我们用流量法自下而上进行测算, 各层级带宽情况为:1)芯片接入层:每个 GPU 采用 18 个 NVLink,每条 NVLink 单向带 宽为 25GB,即单个 GH 芯片带来 18×25GB=450GB 的单向接入带宽,全部 256 个芯片带 来 256×450GB=115200GB 的接入带宽;2)L1 NVLink 交换机层:共有 96 个交换机,每 个交换机有 32 个网络端口,下行和上行流量分别需要占用交换机 115200GB/96/100GB=12 个端口;3)L2 NVLink 交换机层:共有 36 个交换机,每个交换机有 32 个网络端口,端口 容量为 36×32×100GB=115200GB,和接入层流量吻合,也印证该网络架构为两级、无阻 塞 Fat-Tree 结构。 依据 DGX GH200 网络架构设计,我们测算出 GPU 与 800G 光模块的比例为 1:9。1)芯 片层与 L1 层之间:使用铜缆形态连接,无光模块需求;2)L1 层与 L2 层之间:256 颗芯 片带来的流量为 115200GB/s,单个 800G 光模块传输能力为 100GB/s,单向传输需要 115200GB/100GB=1152 个光模块,即 L1 层上行链路和 L2 层下行链路分别需要 1152 光 模块,共需要 2304 光模块。基于以上推理,芯片接入层与 L1 层之间流量传输不需要光模 块(采用背板互联方案), L1 层与 L2 层之间流量传输需要 2304 个光模块,整个网络架构 需要 2304 个光模块,GPU 与 800G 光模块需求比例为 1:9。
AI 时代光模块迭代周期缩短,1.6T 有望于 2024 年导入
后端网络中,光模块的上量节奏预计将显著加快。云计算时代,光模块在数据中心内部主 要部署于前端网络中,主要承载着数据中心内通用服务器为其他用户(数据中心内部和外 部用户)提供服务的网络流量,如业务网和数据同步网。前端网络所需要的带宽很大程度 上由用户侧的需求决定,光模块的部署规模也视用户端使用情况渐进式上量;而 AI 时代, 大量的高速光模块被部署在后端网络中,用于将 AI 大模型训练端的大量 GPU 连接为集群。 由于后端网络不与用户侧发生直接连接,所以其中光模块的上量节奏并不取决于外部用户 数量的增长,而是由端侧的工作负载、时延要求等因素决定。如上文所述,如今大规模 GPU 集群成为 AI 大模型的训练算力底座,且对于时延要求较云计算时代进一步严格,因此光模 块的上量节奏预计较云计算时代更快。
GPU 的加速迭代驱动光模块升级周期的缩短,1.6T 有望加速导入。根据 SemiAnalysis 的 预测,英伟达或将于 2024 年推出新一代 GPU B100,并预计于 2025 年推出 X100,其产 品的迭代周期从 2 年缩短为 1 年。我们认为随着英伟达 B100 的推出,有望带来 1.6T 光模 块的加速导入。根据美国头部光模块厂商 Coherent于 2024年 2月发布的 Shareholder letter, Coherent 判断 1.6T 光模块及器件(200G EML 等)将于 3Q24 形成收入。从迭代周期来看, 以太网光模块从 100G 的批量部署到 400G 的批量部署间隔了 2 年、从 400G 走向 800G 则 经历了 4 年,而从 800G 迈向 1.6T 仅历时 2 年,扭转了此前云计算时代升级周期放慢的趋 势,有望刺激下游云厂客户需求的加快释放。
竞争格局展望:头部厂商市场地位预计稳固
竞争格局展望:头部厂商市场地位预计稳固。市场担忧随着光模块行业竞争对手的不断加 入,市场竞争格局或呈现恶化——头部厂商份额下降、价格超预期下行、行业盈利能力快 速下降等。我们认为在 AI 时代,高速光模块行业的门槛或进一步提高,头部厂商市场地位 预计稳固,基于如下考虑: AI 大模型训练周期长、中断次数多,根据华为发布的《星河 AI 网络白皮书》中的举例,某 个千亿大模型总训练时长为 65 天,其间故障引起的重启达到 50 多次,而真正的训练时长 只有 33 天,平均无故障时间(MTBF)仅为 1.3 天。如何降低 MTBF 是大模型训练中面临 的最大挑战之一。从网络设备硬件的角度来看,光模块的可靠性尤为关键。在 2023 年 9 月 华为全联接大会中,华为数据通信产品线总裁王雷在星河 AI 网络主题峰会上提到,光模块 是 AI 训练网络中最易出现的故障点,很大程度上决定着大模型训练效率的高低。我们认为 在 AI 数据中心中,随着光模块的可靠性要求提高、迭代周期缩短,光模块龙头厂商产品的 高度可靠性、领先的研发实力及交付能力等优势有望进一步凸显(如头部光模块厂商基于 与大客户紧密的研发合作,有望在最新速率的光模块中取得先发优势),头部厂商市场地位 预计稳固。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)