区别于市场观点:我们认为,美光将来到重估的分水岭,估值提升或将是双轮驱动,1)存 储行业步入新一轮上行周期,传统 DRAM 和 NAND 的 ASP 回稳及下游需求改善所带来的 估值修复;2)同时借助 AI 浪潮催生的新需求,HBM3E 和 DDR5 营收占比提升带动利润 率优化,引领估值突破。我们认为市场低估了存储行业上行周期的持续性和重估能力,以 及对美光能如何受益于本轮以 AI 驱动的周期存在认知差。 市场普遍认知到 DRAM 及 NAND 两种传统存储产品在 24 年将出现量价修复,并认为 PC 出货量将伴随 AI PC 崛起、下游库存出清以及新一轮换机潮回暖,同时手机市场在 24 年也 将开始复苏。但我们认为,市场忽略了本轮以 AI 驱动的上行周期的持续性与 18 年(云计 算数据中心搭建和虚拟货币潮)、21 年(疫情期间在家办公)两轮周期不同,并低估了内存 (特别是 HBM)在 AI 计算里起到的重要作用。另外,市场也普遍认为美光在 HBM 技术里 落后于龙头 SK 海力士和晶圆代工一体化的三星两家韩系企业,对美光在 HBM 等高端产线 增长及在 HBM 市场争夺中的定位尚存不确定性,但我们认为,美光 1-β制程帮助其 HBM3E 实现效能优势,其 HBM3E 已经成功进入英伟达供应链,并有望拓展客户至其他 AI 芯片, 需求能见度高,或将从无到有实现更高的营收弹性 。
高存储密度和高带宽的特性让 HBM 成为了 AI 场景下内存容量和带宽瓶颈的解决方案,减 少算力浪费,在训练和推理场景扮演不同角色:1)AI 训练的大容量“数据中转站”:训练 数据需从 SSD 等外部储存器分批次(batch)加载进 HBM,等待加速器调用,同时,训练 过程中的模型参数、正向传播的中间状态(activation)、优化器状态以及反向传播的梯度 (gradient)也需存入 HBM,方便加速器在计算和优化过程中快速访问和读写。HBM 以其 大容量、高带宽的特性,减少加速器访问外部储存器次数,降低数据传输延迟,从而提升 AI 训练效率;2)AI 推理的“模型参数仓库”:训练后的数据本质上是一大堆的参数,HBM 可容纳更为复杂的模型,方便加速器推理时调用,减少数据搬运时间,提升 AI 推理效率。
作为 AI 芯片的核心组件之一,HBM 的需求能见度高,展望未来,我们认为单卡 HBM 堆 栈数目增多、层数增高和迭代趋势已初见端倪。GTC 2024 上英伟达发布新一代架构 Blackwell 及 B200 GPU,通过搭载 8 颗 HBM3E 实现 192GB 内存容量和 8TB/s 的带宽, 对比上一代 H200(6 颗 HBM3E,内存容量 141GB,带宽 4.8TB/s)在内存/带宽上提升 36.2%/66.67%。除去英伟达,AMD、英特尔和云厂商自研 ASIC 也呈现相同趋势:1)AMD: 2023 年 6 月 AMD 发布的 MI300X 搭载 8 颗 12 层 HBM3 实现 192GB 内存容量和 5.3TB/s 带宽,对比上一代 MI250X(8 颗 HBM2E,内存容量 128GB,带宽 3.2TB/s)在内存/带宽 上提升 50%/65.6%;2)谷歌:2023 年 12 月 6 日谷歌公布 TPU v5p 性能参数,配置 95GB HBM3,对比上一代 TPU v5e(16GB HBM2/2E)在 GPT3-175B 模型上训练速度提升近 50%;3)AWS:2023 年 12 月 7 日 Digitimes 援引韩媒 Digital Times 消息,AWS 于年度 大会 re:Invent 2023 公开的 Trainium 2 芯片搭载 4 颗 12 层 24GB HBM3,对比上一代 Trainium 32GB HBM2E 容量提升 200%;4)英特尔:2024 年 4 月 9 日英特尔发布 Gaudi 3,搭载 8 颗 16GB HBM2E,实现 3.7TB/s 带宽,对比上一代 Gaudi 2(6 颗 16GB HBM2E) 内存容量提升 33%。 截至 2024 年 5 月 12 日美光估值为 2.60x Forward PB,超过上一轮上行周期(21 年,2.0x Forward PB)估值峰值。14 年以来美光估值曾经历三次峰值,分别受益于:移动互联网普 及(14 年,2.8x Forward PB, 3.7x TTM PB)、上云趋势带来的服务器需求和加密货币潮(18 年,1.7x Forward PB,3.1x TTM PB)以及疫情居家办公带来的短期需求激增(21 年,2.0x Forward PB,2.65x TTM PB):

(1)2014 年:12-14 年移动互联网普及带动智能手机和平板电脑销售量快速增长,根据 Gartner 2015 年数据,11-14 年全球智能手机销售量同比增长均超 28%,CAGR 38.2%。 下游终端需求带动全球半导体销售额上行,根据 WSTS 历史数据及 DRAMeXchange 11-15 年每季度统计,本轮上行周期历时约 33 个月,全球半导体销售额自 12Q1 谷底波动上升至 14Q3 峰值,12-14 年期间全球半导体销售额涨幅 15%,其中 DRAM 和 NAND 销售额涨幅 均超 70%。FY14 美光营收 164 亿美元,同比增长 80.3%,FY12-14 期间营收增长 98.7%, 主要系美光收购尔必达(Elpida)迅速扩张 DRAM 市场份额,以及智能手机和平板电脑出 货扩增拉动美光 NAND Flash 营收增长。
(2)2018 年:16 下半年到 18 年,企业上云趋势带动服务器需求高速增加,叠加加密货 币潮带动的矿机需求,全球半导体行业迎来新一轮上行周期,DRAM 及 NAND 产品领涨显 著。根据 IDC 和 Gartner 16-18 年季度统计数据,16-18 年全球服务器出货量和 ASP 增长 带动营收涨幅达 56%,18Q4 出货量近 350 万台,同比增长 8.5%。根据 Coinmarketcap 17 年 12 月 31 日数据,2017 年虚拟货币市场总值达 5724.8 亿美元,全年累计增长 3028%, 比特币(BTC)价格上涨 13 倍,一度突破 20089 美元。以太坊(Ethereum)的数字代币 以太币 2017 年涨幅达 111%,其采用名为 Ethash 的硬内存(memory-hard)算法,要求 在挖矿过程中频繁地从一个大型数据集(称为 DAG)中读取数据,该操作主要受到内存带 宽,加上当时还采用 Proof of Work(POW)计算,故拉动 GPU 和存储的热度提升。根据 WSTS 历史数据及 DRAMeXchange 16-19 年每季度统计,全球半导体销售额 16-18 年涨 幅 38%,其中 DRAM 和 NAND 销售额涨幅分别为 145%和 63%,而本轮上行周期历时约 27 个月。FY18 美光营收 304 亿美元,同比增长 49.5%,FY16-18 期间营收增长 145.1%, 主要系两年间下游需求使得 DRAM 市场供应紧俏,ASP 持续保持高位。
(3)2021 年:2020 年开始新冠疫情的居家办公场景带来短期消费电子产品(智能手机、 PC 等)需求的快速增长。根据 Gartner 2019-2023 年数据,2021 年全球智能手机销售量 同比增长6.1%,为19-23年间唯一实现同比增长的年份,而全球PC出货量同比增长20.2%, 为 19-23 年间唯一实现两位数增长的年份。根据 WSTS 历史数据及 DRAMeXchange 20-22 年统计,全球半导体销售额自 20Q3 起实现约 20 个月的连续环比增长,期间涨幅 34%,21 年全球 DRAM/NAND 销售额同比增长 42%/21%。FY21 美光营收 277 亿美元,同比增长 29.3%,其中 DRAM 营收同比增长 38%,NAND 营收同比增长 14%。本轮短期上行美光增 长不及行业,主要系:1)20 年底美光 DRAM 工厂断电、中国台湾地震导致其 DRAM 产能 损失;2)20-21 年美光 NAND 扩产对比三星、铠侠等竞争对手较为保守,同年海力士收购 英特尔 NAND业务份额赶超美光。疫情带来的短期需求于 22下半年见顶,22下半年至 23Q3 期间消费电子需求疲软,AI 等新的增长点尚未成熟,半导体市场处于下行周期。
我们认为 24 年内存行业迈入新一轮上行周期,由 AI 浪潮驱动,并将受益于 AI 芯片及 AI 应用普及所带来的中长期增长,跟 14 年的逻辑类似,而并非如同加密货币潮和疫情带来的 短期需求激增,因此我们认为美光有望借助 AI 东风,估值应往 2014 年水平靠拢,甚至突 破。我们预计FY24/25/26公司营收分别为251/404/449亿美元,同比为61.3%/61.2%/11.1%。 具体而言: DRAM 业务:我们预计 DRAM 业务 FY24/25/26 营收为 178/278/320 亿美元,对应同比为 62.4%/56.2%/15.1%,主要由 HBM 的量价齐升带动,叠加 AI 手机、AI PC 和 AI 服务器的 DRAM 需求。
1)HBM 受惠于 AI 芯片需求和设计进化,美光作为后起之秀,通过 1-βHBM3E 追赶市场 份额:我们认为,随着 AI 芯片需求的增加和在设计上的进化,更多的 HBM 将更紧密的搭 载在 AI 芯片周边,在 AI 训练和推理时增加内存和降低延时。目前,HBM3/3E 市场已打破 “独供”,由 SK 海力士、三星和美光三家割据:SK 海力士原为英伟达 HBM3 独供,率先 敲定英伟达 HBM3E 商单, 24 年 3 月 19 日宣布开始 8 层 HBM3E 量产,24Q2 业绩会公 司宣布 12 层 HBM3E 将于 24Q3 完成开发,随即向客户送样;三星于 23H2 宣布量产 HBM3 Icebolt(8/12 层堆叠)并确认供货 AMD MI300 系列,随后三星加速产品迭代并积极拓展客 户,GTC 2024 期间展示其 12 层 36GB HBM3E,英伟达 CEO Jensen Huang 会上于三星 12 层 HBM3E 旁签下“Jensen Approved”,确认该产品正在通过英伟达效能验证,Digitimes 24 年 4 月报道三星 HBM3E 测试已近尾声,最快 24Q2 开始供货英伟达,相较之前市场预 期的24H2提前。相比之下,美光并非HBM3/3E的先行者,公司跳过HBM3直接研发HBM3E, 23 年 7 月,美光宣布与台积电 3D-Fabric 联盟,推出 1-β制程的 HBM3E,并于 24 年 2 月 率先宣布实现量产,确认供货英伟达H200并于24年3月22日确认出样12层36GB HBM3E, 预期 25 年量产。通过测算存储厂商 HBM 产线晶圆投入量和台积电先进封装产量,我们认 为 24/25 年 HBM3/3E 供需缺口约为 5.4%/4.1%。
美光作为后起之秀,HBM 产能相较 SK 海力士和三星仍显不足,主要是承接两者溢出的订 单。根据 FY24Q2 业绩会,美光管理层对 HBM3E 前景乐观,重申 24 年 HBM3E 产能已售 罄,并正在接受除英伟达之外客户验证。公司目标 FY24 HBM3E 的营收为数亿美元,而 DRAM 和整体毛利率将于 FY24Q3 开始改善。相较 23 年约 3-10%的市场份额,公司预计 25 年 HBM 的市占率将与其在 DRAM 的市占率平齐(约 20%),将带来较高的增长空间。 我们认为通过供应英伟达 H200,美光 HBM3E 现已具有初步客户基础,若能按照计划在 FY24-25 实现 HBM3E 扩产和产品验证,进一步满足下游客户需求,将显著受惠于高速增 长的 HBM 市场,并凭借 HBM 产品更高的 ASP 带来利润率的优化。
2)传统 DRAM 供应商库存已降低,以 DDR5 为代表的 AI 相关内存需求则受惠于 AI 手机、 AI PC 和 AI 服务器渗透率提升带来的商机:根据 Digitimes 24 年 3 月 12 日报道并结合美 光 FY24Q2 业绩会信息,DDR5 供应较为吃紧,DDR5 在 24 年初仍处于供不应求,24Q1 约有 3%的供给缺口,伴随存储厂商陆续恢复增产,预期 24Q2 起缺口收敛至 1%,24H2 产能将持续开出,伴随 DDR5 在服务器和终端侧渗透率快速提升,下游需求可望消化新增 产能,从而维持 DDR5 ASP 涨势。相较而言,DDR4 和 DDR3 等传统 DDR 方面,DDR4 是 23 年上游原厂减产的重点,23Q3 DDR4 仍处于亏损出货状态,尽管下游库存水平逐渐 恢复健康,短期内成熟制程产品(如中低端服务器和消费电子产品)需求增长并不强劲, 故美光等主要供应商仍不倾向恢复产能,叠加 HBM 和 DDR5 需求增长产生 DRAM 产能排 挤,整体将对 DDR4 和 DDR3 等传统 DRAM 保持积极的产能控制。
24Q2,短期内受 4 月 3 日中国台湾强震对供应链影响,DRAM ASP 或见较大涨幅,根据 Digitimes 24 年 4 月 15 日至 17 日系列报道,该次地震对美光厂房和基础设施未造成永久 影响,单季 DRAM 供应影响约为 4%-6%,鉴于 DRAM 厂商原先已有 24Q2 DRAM ASP 调 升 10-15%规划,叠加地震影响,24Q2 美光 DRAM 合约价将调涨 25%,整体主流 DRAM 合约价调涨约 20%。 分应用场景来看来看,PC 方面,23 年 PC 库存已基本出清,顺应新 CPU 机种逐渐转往 DDR5 的趋势,下游 DDR5 采购量或将继续上升。叠加微软将于 25 年 10 月 14 日开始停 止支持 Windows 10 所带动,以及 AI PC 的崛起,PC DRAM 市场有望进一步迎来复苏。 根据 IDC 24 年 2 月 7 日预测,AI PC 24 年出货量约为 50 万台,2027 年则有望突破 1670 万台,3 年 CAGR 约为 222%。整体而言,PC 24Q1 出货量已基本恢复至 19Q1 水平,24H1 PC 市况已经逐步好转,虽然需求大规模增长尚未出现,但 24H2 PC 市场可望迎来进一步 复苏。
AI 服务器方面,我们认为,硬件设备的规模和性能是 AI 大模型时代的必然要求,CPU+加 速器异构带动 DDR5 和 HBM 需求高速增长。鉴于目前生成式 AI 主要以大参数模型路径实 行,随着模型数量和所需处理的数据量增长,其训练与推理均需大量的计算能力与存储资 源。展望 24 年,AI 基础设施将是重点投入领域,头部云厂商和互联网巨头加大 AI 领域资 本开支,将进一步支撑 AI 服务器行情。IDC 23 年 12 月发布数据显示,23 年全球 AI 服务 器市场规模达 211 亿美元,预计 2025 年达 317.9 亿美元,2023-2025 年 CAGR 22.7%。 同时,AI 服务器自身需要处理一系列密切相关但要求各异的任务,包括数据预处理、模型 训练、推理和后处理等,因此需要 CPU+加速器异构以灵活面对使用场景。AI 服务器搭载 的 CPU 负责系统启动和维护以及系统各组件统筹协作等逻辑,在 AI 训练和推理中亦涉及 数据预处理等通用计算场景。例如,AI 训练和推理的原始数据往往参差不齐,需要通过数 据清洗、转换、特征工程等一系列流程,最终才能为系统所用,而这些任务涉及大量逻辑 运算和内存操作,对处理速度和时延要求较高,因此通常由 CPU 承担,需要更大带宽、更 大容量的内存作为支撑,带动 DDR4 向 DDR5 迭代;而如前文所述,HBM 在 AI 训练和推 理中同样扮演重要角色,AI 服务器的加速器搭配 HBM 已成标配,逻辑芯片频繁读取片外 HBM 进行内存调度。根据美光 FY24Q2 业绩会,一台 AI 服务器的 DRAM 容量是通用服务 器的 6-8 倍,因此快速增长的 AI 服务器需求将带动 DRAM 需求的高速增长。
通用服务器方面,24 年或迎来换机潮,产品组合将向 DDR5 倾斜。根据 Digitimes 24 年 2 月 1 日报道,业界预期 24 上半年服务器需求“淡季不淡”,北美云厂商除了持续采购 AI 服 务器,也开始对通用型服务器进行新一轮采购,加速英特尔 Eagle Stream 和 AMD Geona 等新平台导入,其中以谷歌和微软采购力度较大。根据 24 年 2 月 Yole Intelligence 预测, 未来五年内,DDR4 份额将进一步被 DDR5 取代。到 2027 年,DDR5 将占 DRAM 总出货 量的 80%以上。 AI 手机方面,Galaxy S24 带动 AI 手机热潮方兴未艾,端侧 AI 功能强化对 LPDDR5 需求。 美光 FY24Q2 业绩会透露 AI 手机相较传统非 AI 旗舰机型多出 50%-100%的 DRAM 需求, 而鉴于手机功耗限制,因此带动 LPDDR5X 需求,预测 24 年手机出货量同比增长 3-5%。 根据 Digitimes 23 年 3 月援引 IDC 预测,2024 年全球 AI 手机出货量或增至 1.7 亿台,占 手机市场出货比重达 15%。 面向 DDR5 商机,美光于 CES 2024 上展示基于 LPDDR5X 的 LPCAMM2 内存模组,相 较 DDR5 DIMM 在带宽和能效表现上更具优势,能更有效解决 AI PC 和 AI 手机的内存问 题。该款 LPCAMM2 已获 Intel、联想和仁宝等业界支持,预计 24 上半年投产。我们预计 公司的 1-β16GB DDR5、LPDDR5X 和 LPCAMM2 作为面向端侧 AI 的内存方案将显著受 益。
NAND 业务:我们预计 NAND 业务 FY24/25/26 营收为 69/122/125 亿美元,对应营收同比 为 64.2%/77.1%/2.4%。
1)伴随下游客户库存水平正常化,美光对 FY24 NAND 和 SSD 趋势较乐观。根据 Bloomberg Intelligence 22-24 年数据统计,NAND ASP 下降 12 个月后于 23Q2 触底,于 23Q3 开始 回升。而根据 TrendForce 2024 年 3 月报道,供应商正在推动提高 NAND Flash 的合同价 格,24Q1 涨幅约为 23-28%,Q2 NAND Flash 采购量将较 Q1 小幅下滑,但整体市场氛围 持续受供应商库存降低,以及减产效应影响,预估 24Q2 NAND Flash 合约价将上涨约 13~18%。需求方面,根据公司 FY24Q2 业绩会,预期未来数年 NAND 需求 CAGR 约为 21%-23%,而公司计划 FY24 NAND 供给策略维持保守,着力于进一步优化库存,缩短周 转天数,预计 NAND 需求增长将显著高于供给。 2)232 层 NAND 布局数据中心 SSD、AI PC 和大容量智能手机:公司基于 232 层 TLC NAND Flash,分别于 2023 年 5 月、10 月和 12 月推出 6500 ION NVMe SSD、7500 NVMe SSD 和 3500 NVMe SSD。其中,6500 SSD 提供 30TB 容量,打破 QLC 和 TLC 界限,以 QLC 的价格实现 TLC 的性能,FY24Q2 美光业绩会透露该款 SSD 营收环比增长逾 50%,而 7500 SSD 和 3500 SSD 分别是面向数据中心和用户端的另两款解决方案。
Digitimes 24 年 4 月 26 日报道提及,高层 QLC NAND 在 PC 中渗透率不断提高,AI PC 搭 载 LLM 和图片/影片生成模型,将耗费大量存储容量,同时,由于用户不会立即删除生成的 大量图片和视频,带来 AI PC 所需存储空间显著提升,同时出于降低存储成本考量,QLC NAND 导入 PC 成为趋势。24 年 4 月公司宣布率先量产 232 层 QLC NAND,并推出面向 用户端的 2500 NVMe SSD,现已向 PC OEM 送样。 同时,根据 Digitimes 24 年 1 月报道,业界预期 24 年 QLC NAND 将导入大容量存储的手 机新品,随着影像存储需求增加及 QLC NAND 更低的单位存储成本,iPhone 及部分国产 手机品牌(如 Oppo)已进入大容量 1TB 机种采用 QLC NAND 的产品验证阶段。我们预计 24-25 年 AI 手机“DRAM+NAND”配合升级趋势和大容量机种陆续上架,有望带动美光 NAND UFS 3.1(176 层 NAND)/ UFS 4.0(232 层 NAND)需求增长。
美光 FY24Q2 营收和利润均超预期,净利润实现连续 5 个季度亏损后首度扭亏。美光 FY24Q2 营收 5824 百万美元,同比+58%,环比+23%,超彭博一致预期的 5354 百万美元; Non-GAAP 净利润 476 百万美元,超彭博一致预期的-266 百万美元;Non-GAAP EPS 0.42 美元,超彭博一致预期的-0.24 美元。受益于 ASP 恢复和高阶产品销量提升,美光经调整 毛利率为 20%,超彭博一致预期的 13.6%,环比+19.2pct;经调整净利率为 3.5%,实现扭 亏,超彭博一致预期的-5.7%,环比+30.3pct。公司指引 FY24Q3 营收中位 66 亿美元,超 彭博一致预期的 60 亿美元,毛利率/净利率为 26.5%/15.0%,超彭博一致预期的 20.9%/4.6%, 主要系 HBM 和 DDR5 营收贡献将带来利润率持续优化。 公司预计 24 年 DRAM 需求增速约为 15-17%,NAND 约为 21-23%。FY24Q2 美光 DRAM 营收为 4158 百万美元,同比+53%,环比+21%,出货量环比低个位数上升,ASP 环比上 升 17-19%;NAND 营收为 1567 百万美元,同比+77%,环比+27%。公司预计 24 年 DRAM 需求增长率将为 15-17%,NAND 将为 21-23%。

我们认为,在 AI 芯片需求强劲的背景下,伴随着英伟达和 AMD 积极的 AI GPU 迭代蓝图, 以及头部云以及互联网厂商考虑削减 TCO、提升研发可控性及集成自身生态圈而积极推进 自研芯片(ASIC 为主),HBM 的容量、效能和功耗要求将不断提升,HBM 的需求量将受 AI 芯片的需求增长拉动。我们预测,HBM 产品在 24-25 年将出现需求缺口,叠加 HBM 的 复杂工艺需求(TSV 硅穿孔、键合堆叠和后续以 CoWoS 封装与 AI 芯片搭载一起),将带 来相对传统 DRAM 更高的 ASP。伴随 HBM 产品在美光 DRAM 中营收占比提升,我们预 计公司营收和利润率将得到优化。
AI 芯片存算发展不同步,内存瓶颈催生 HBM 需求
在 AI 训练场景中,加速器(如 GPU)多数利用片外内存,需要频繁读取片外 DRAM 进行 内存调度。一方面,训练数据(如图像、文本和视频)需从 SSD 等外部储存器经由 CPU 初步处理,分批次(batch)加载进内存,等待加速器调用。相较于加速器直接从外部存储 器调用数据,HBM 等内存“中转站”缩短了数据传输的物理距离,同时利用其支持更高速 数据传输的性质,提升 AI 训练效率;另一方面,训练过程中的模型参数、正向传播的中间 状态(activation)、优化器状态以及反向传播的梯度(gradient)也需存入内存,方便加速 器在计算和优化过程中快速访问和读写。根据 Amir Gholami 21 年 3 月发表的《AI and Memory Wall》,相较模型参数,模型训练的中间状态等需要 3-4 倍的内存空间,其中正向 传播的中间状态为反向传播计算梯度所必须。
AI 模型训练可视作数据的抽象和压缩,数据量的增大需要提升模型的复杂度(如参数量) 来“消化”训练集中包含的信息。鉴于内存在 AI 训练中的作用,大型 AI 模型训练基于庞 大的数据量,其自身复杂的网络结构亦包含数十亿个参数,对内存容量和带宽提出挑战:1) 如果内存不足,加速器调用数据就需要频繁访问传输速率较慢的大容量存储器(如 SSD), 带来算力浪费和延迟;2)除训练数据外,模型训练的中间状态等信息同样需要存入内存, 因此内存不足将限制模型的复杂度上限,从而影响模型性能和迭代;3)“中转站”定位对 其与外部存储器和加速器之间的数据传输速率提出要求,HBM 作为内存提供更高的带宽, 提升存算间通信效率,实现单次更大批量(batch size)的数据传输,从而降低延迟,并提 升算力利用率和训练效率。 计算能力与带宽能力之间的差距致使内存容量和带宽难以跟上 AI 硬件的计算速度,成为限 制 AI 芯片性能发挥的主要瓶颈,即“内存墙”(Memory Wall)。尽管内存容量和带宽在 AI 训练中地位重要,但 AI 芯片“存”和“算”的性能提升并不同步。根据 Amir Gholami 发表的《AI and Memory Wall》,2018-2021 年,Transformer 模型(LLM 背后的算法)大 小每两年增长 410 倍,而同时间 AI 加速卡内存容量每两年仅增长 2 倍。同时,主流加速卡的算力增长和内存方案/传输协议的带宽增长也并不同步。1996-2023 近 20 年间,AI 芯片 峰值算力提升约 60000 倍(平均每两年提升 3 倍),而同时期 DRAM 内存带宽提升为 100 倍(平均每两年提升 1.6 倍),芯片/设备间数据传输协议(如 PCIe 和 NVLink)带宽提升仅 30 倍(平均每两年提升 1.4 倍)。因此,高存储密度和高带宽的特性让 HBM 成为了 AI 训练场景 下内存容量和带宽瓶颈的解决方案,作为 AI 芯片的核心组件之一得到广泛应用。
而除去训练,内存容量和带宽对 AI 推理同样重要,对响应时间的需求、图像生成和视频生 成提高了推理计算需求的标准:1)容量上,训练之后的 AI 模型本质上是优化之后的参数, 根据 The Next Platform 24 年 2 月新闻,一个参数量 1750 亿的 GPT-3 推理时需要 175GB 的内存容纳模型参数。加速器搭配大容量 HBM 方案便于模型整体置入内存,方便加速器推 理时调用,减少设备间数据搬运时间,提升 AI 推理效率;2)带宽上,HBM 的高带宽支持 单次更大批量数据传输,降低推理延迟,同时亦可以满足推理场景下更多的高并发请求(如 META的智能推荐系统)。根据三星24年2月新闻,其12层HBM3E相比上一代8层HBM3, 在推理场景下支持并发用户数提升 11.5 倍。
内存迭代提升 AI 芯片性能,HBM 相较传统显存实现容量和带宽倍增
在算力接近的情形下,AI 芯片可以通过扩容内存和带宽提升模型训练和推理性能,而内存 迭代对 AI 芯片性能的提升可以英伟达 H200 为例。23 年 11 月全球超算大会(SC23)上, 英伟达推出的 H200 搭载 6 颗 HBM3E,内存达 141GB,带宽 4.8TB/S。作为 H100(搭载 6 颗 HBM3,内存达 80GB)的升级款,H200 依然采用 Hopper 架构和台积电 4 纳米工艺。 两者的算力指标基本相同,但在 GPU核心数和频率保持不变的情况下,仅通过内存从 HBM3 向HBM3E的迭代,就能实现在Llama2和GPT-3等大语言模型推理性能40%-90%的提升。 对比美光 GDDR6X 和 HBM3E,同样 24GB 内存容量,前者搭载于英伟达 GeForce RTX 3080Ti/3090Ti 显卡,显存位宽 384 位,提供 76-96 GB/s 的带宽,后者则面向 AI 训练场景, 显存位宽 1024 位,提供 1.2TB/s 的带宽,为 GDDR6X 的 13-16 倍。
面向 ASIC 新蓝海,HBM 同样蓄势待发
我们在 2024 年 2 月 14 日的《竞争格局千变万化,英伟达欲切入专用芯片设计市场》的报 告中提出,AI 芯片市场竞争日趋白热化,除却 GPU 等通用型芯片,ASIC 专用芯片通过更 低的 ASP、在特定场景提供更高效和更低功耗、以及更灵活的设计周期,将是通用型 GPU 的互补或替代。伴随 AI 模型多元化和算法日趋成熟,ASIC 作为“算法的物理呈现”,也将 适配各大厂商的差异化模型需求,承接部分算力。头部云及互联网厂商考虑到削减 TCP、 提升研发可控性及集成自身生态圈等,均在推进自研芯片,而根据路透社与彭博 24 年 2 月 报道,英伟达也正在建立一个专注于为云计算、AI 等领域设计 ASIC 专用芯片的新业务部 门。 相较以算力作为核心护城河的 GPU,ASIC 专用芯片并不以算力见长,但随着芯片设计的 进化,ASIC 能通过增加 HBM 内存等有效提升性能并降低延时,从而弥补“算力差距”。 根据谷歌 23 年 12 月发布的 TPUv5p 参数及英伟达 H100 参数,尽管对比 INT8 算力, TPUv5p 仅为 H100 SXM 的 23%(918TOPS vs. 3958TOPS),但特定场景下(如 GPT-3 175B 训练)二者已可基本对标。其中,H100 SXM 搭载 80GB HBM3,带宽 3.35TB/s;谷 歌 TPUv5p 搭载 95GB HBM2e,带宽 2765GB/s。另外,算法的进步也可有效降低对芯片 算力需求,例如特斯拉 FSD 已采用 FP8,而不需采用传统的 FP16。
HBM 核心工艺:TSV 和键合堆叠
HBM 在工艺上是由高性能 DRAM 通过 3D 堆叠键合而成,其通过 TSV(Through Silicon Via,硅通孔)技术垂直连接多片 DRAM,从而获得多个单片的大容量。TSV 和键合堆叠 (bonding)是 HBM 的两大核心工艺,工艺精进是 HBM 的迭代的基础:1)TSV 工艺: HBM1 到 HBM3E 的迭代实现了带宽从 128GB/s 到 1.2TB/s 近 10 倍增长,而带宽和数据传 输速率的提升需要单位面积上更多的 TSV 穿孔,对缩小 TSV 穿孔间距和穿孔直径提出更高 要求;2)散热:HBM 迭代逐步提升堆叠层数和集成度的同时,也意味着单位面积内热量 的增加。另外,芯片在垂直方向上的堆叠阻碍热量疏散,带来堆叠层数的散热瓶颈,而芯 片堆叠键合的材料/键合方式的导热效率是散热关键;3)层数与高度:将堆叠层数扩展到 12 层以上,同时仍保持相同的总物理堆叠高度,需要降低单片 DRAM 的厚度,并尽量缩小 DRAM 间距,而堆叠键合过程中的施压易造成芯片翘曲,影响成品良率。

CoWoS 成 HBM 搭载关键,英特尔 EMIB 能否接力?
HBM 透过 CoWoS 2.5D 封装将自身的 DRAM 堆栈(Stack)与 GPU 等逻辑芯片集成在中 介层(Interposer)上,增加内存和计算芯片间的链路数量,缩短内存与逻辑芯片传输的物 理距离,并借助硅中介板的高速 I/O 接口形成“近存计算”架构,从而增加访存带宽、减少 数据搬移次数,以提升整体计算效率,节约频繁数据搬运带来的无用能耗。因此,相较于 传统 DRAM(例如 GDDR Graphics Double Data Rate),HBM 拥有更高的内存密度和 I/O 数量(1024 位的显存位宽),更加适应 AI 大模型训练场景。
第一代 HBM 由 AMD 与海力士合作研发,已经采用硅中介层集成内存和逻辑芯片,但局限 于成本问题,早期 HBM 并未得到广泛应用。根据 AMD HBM1 的访谈、相关演示材料和 Chang-Chi Lee 于 2016 年在 IEEE 上发表的论文《An Overview of the Development of a GPU with Integrated HBM on Silicon Interposer》,2014-2015 年发布并量产的 HBM1 研发 耗时 8 年,尽管彼时台积电 CoWoS 工艺尚未成熟,但 AMD 就已意识到需要通过硅中介 层使得存储和逻辑芯片物理靠近(集成),以提升带宽和每瓦性能,HBM1 的中介层由 AMD 和日月光、Amkor和 UMC 合作研发。AMD 并未披露 HBM1的单片成本,但根据 ANANDTech 2018 年 12 月报道,8GB HBM2 成本约 150 美元,硅中介层成本 25 美元,一张搭载 HBM2 的 AMD RX Vega 56 零售价仅 400 美元,在未考虑先进封装成本下,HBM2 成本已占近 50%, 同时,HBM2 成本对比同时期 8GB GDDR5 售价贵出约 3 倍,在 AI 大模型训练需求尚未迅 速增长的背景下,早期 HBM 并未获得广泛采用。
HBM2 由英伟达、三星和台积电合作研发,台积电 CoWoS 成为 HBM2 与逻辑芯片集成的 封装方案。Semianalysis 在 23 年 7 月的分析指出,鉴于光刻设备的限制,一般芯片最大尺 寸为 858 平方毫米(26mm x 33mm),而搭载 HBM 的 GPU 一般采用 HBM 内存环绕逻辑 芯片的设计,所需硅中介层面积超过该上限,而台积电通过其十字线缝合技术使得硅中介 面积可突破该限制,从而适应大尺寸设计需要。根据台积电 Shang Y. Hou 2017 年发布的 论文《Wafer-Level Integration of an Advanced Logic-Memory System Through the Second-Generation CoWoS Technology》,HBM2 相较 HBM1 在尺寸上从 40 平方毫米增 长到 92 平方毫米,适逢台积电迭代第二代 CoWoS,将硅中介层尺寸从 1 代的 800 平方毫 米拓展到 2 代的 1200 平方毫米,同时 1 代 CoWoS 仅支持同质芯片间互连,而 2 代开始实 现异质芯片互联(Memory - Logic),叠加测试中台积电 CoWoS 封装芯片对比其他封装方 案更出色的性能表现,因此台积电 CoWoS 成为 HBM2 的封装方案。
时至今日,台积电 CoWoS 仍然是 HBM 与逻辑芯片封装首选。根据 Semianalysis 23 年 7 月发布的《AI Capacity Constraints - CoWoS and HBM Supply Chain》一文,HBM1 至 HBM3E 均采用 1024-bit 位宽,带来相较传统 DRAM 更高的 I/O 焊盘数(pad count),同 时 HBM 与逻辑芯片集成要求更短的走线长度(trace length),高密度短连接在传统印制电 路板(PCB Printed circuit board)或封装基板(PKG Package Substrate)难以实现,从 而催生 2.5D 封装需求,而台积电 CoWoS 利用硅中介以合理的成本提供应对方案,因此成 为主流。值得一提的是,HBM 与逻辑芯片垂直堆叠的 3D 封装(如 SoIC),鉴于散热和成 本问题尚未被采纳,但海力士和三星据 Tom’s Hardware 在 23 年 11 月援引韩媒中央日报报 导,正在与包括英伟达在内讨论 HBM4 集成设计方案,拟将 HBM4 与逻辑芯片堆叠在一起, 实现在单芯片上存储器与逻辑芯片的垂直整合。
除去台积电 CoWoS,英特尔 EMIB 在技术上也能实现 HBM 与逻辑芯片的封装,但短期内 难以替代。EMIB 对标台积电 CoWoS-L,与台积电 CoWoS-S(即一般所说的台积电 CoWoS) 2.5D 封装采用的硅中介层结构不同,英特尔直接将小型硅桥嵌入基板中实现芯片之间的互 联,在互联效率相似的基础上不需要花较高成本来制造足够大的硅中介层,因此技术上也 能满足 HBM 内存与逻辑芯片的封装需要。我们认为相比 2.5D CoWoS 封装,EMIB 有如 下提升良率和降低成本的优势:1)采用硅桥而不是整片硅中介层;2)无需使用硅通孔技 术(TSV);3)设计简单,灵活度高,芯片封装不会受制于硅中介层的大小。根据 Tom’s Hardware 在 24 年 1 月援引台湾经济日报报道,鉴于台积电 CoWoS 封装产能吃紧,英伟 达新增英特尔提供封装服务,月产能约 5000 片,不过英特尔并未涉及英伟达的晶圆代工订 单。但 EMIB 替代台积电 CoWoS-S 仍有部分问题需时验证:1)硅桥虽可解决互联带宽问 题,但不采用硅基板的 RDL 中介,载板翘曲和热稳定性需验证;2)鉴于凸块间距,EMIB 封装的性能和台积电 CoWoS 有所不同,亦需封装厂和芯片设计方验证。根据台湾力成 23 年 10 月业绩会说法,寻找台积电 CoWoS 替代方案或需一年时间去验证,短期内难有替代。
HBM 本质上仍是 DRAM 产品,各厂商设计、流片和封测均自行完成,出货后将 HBM 成 品交由 AI 芯片封装厂与逻辑芯片整合,因此 DRAM 工艺制程将直接影响 HBM 芯片性能。 对于存储芯片,制程工艺的迭代是缩减晶体管尺寸,带来单位面积上实现更小、更紧密的 晶体管布局,提升内存密度,实现更高性能的同时达到更好的功耗表现。根据美光 DRAM 副总裁 Thy Tran 于 2021 年 4 月的采访,DRAM 在 2015 年基本进入 20nm 以下节点之后, 制程上的微缩相对放缓,头部厂商在 10nm+节点上拓展多代工艺节点(如 1x、1y、1z 和 1 α等),而使用字母代替确切数字的动因在于,内存行业确切数字与芯片性能并非线性相关, 因此用新字母代表新制程,表示性能有了较大提升。
以美光为例,公司于 2020 年公布 1-α制程节点(第四代 10nm 级),并于 2021 年开始量 产,之后于 2022 年率先推出 1-β制程(第五代 10nm 级),相较 1-α,该节点可实现约 15% 的能效提升和 35%以上的内存密度提升。2023 年三星电子及 SK 海力士也于其后跟进 1- β节点。美光和海力士 HBM3E 均采用 1-β制程,领先于三星的 1-α制程,而根据公司 FY24Q2 业绩会,美光 HBM3E 相较于同代竞品实现约 10%的性能提升,降低约 30%的功 耗,我们认为 DRAM 制程上的领先功不可没。
HBM3/3E 扩产加速,但供需缺口短期或难以缓解
市场对 HBM3/3E 反响积极,伴随 AI 芯片迅速迭代,所需 HBM 搭载量和技术要求随之提 高,在供需失衡下三大厂商纷纷扩产。据 Tom’s Hardware 在 23 年 12 月报道,英伟达向 海力士和美光提前支付数亿美元以锁定 HBM 产能,印证了 HBM 产能的迫切需求和对 AI 芯片的重要。英伟达在 GTC 2024 上发布了新一代架构 Blackwell 及 B200 GPU,通过搭载 8 颗 HBM3E 实现 192 GB 内存容量和 8 TB/s 带宽,对比上一代 H200(6 颗 HBM3E,内 存容量 141 GB,带宽 4.8 TB/s)在内存/带宽上提升 36.2%/66.67%。亚马逊 AWS 已计划 采购 2 万片 GB200 芯片,以部署高达 27 万亿参数的模型。根据 Digitimes 24 年 3 月的报 道,Meta 计划在 24 年底前储备约 35 万颗 H100,加上其采用的其他 AI 芯片,将拥有相当 于 60 万颗 H100。Meta 在 3 月 19 日指出,目前 Meta 正在以 2 个 GPU 丛集训练其第三代 Llama 模型,据称每个丛集包含约 2.4 万个 H100 GPU,公司计划导入 Blackwell 训练 Llama 的未来版本。
根据美光 FY24Q2 业绩会,公司预期 24 年 5 月 HBM3E 出现初步营收贡献,8 月营收将进 一步提升,FY24Q3 开始对公司的 DRAM 业务和整体毛利率作出改善,并预计在 FY24 整 年,HBM3E 将贡献约数亿美元营收。管理层对 HBM3E 前景乐观,并宣布 24 年产能已售 罄,25 年产能也几近售罄。公司预计 FY24 CAPEX 在 75-80 亿美元,略高于 FY23 水平, 主要用于支持HBM3E量产和扩产。管理层虽未透露除CAPEX之外更多的HBM扩产信息, 但预期 25 年 HBM 市占率将与公司在 DRAM 市占率平齐,约为 20%。根据 Digitimes 24 年 3 月 12 日和 4 月 15 日报道,美光将逐季提高稼动率,增产重点将以 HBM 等高端 DRAM 为主,并与韩美半导体(Hanmi Semiconductor)签订 HBM TC 键合设备 Dual TC Bonder Tiger 的供应合约,订单规模 225.9 亿韩元(约 1653 亿美元),合约期限为 2024 年 4 月 10 日至 7 月 8 日。
我们也注意到 HBM 另两大厂商海力士和三星亦在 HBM 扩产上有所动作。继 23 年“独供” 英伟达 H100 HBM3 之后,海力士积极推动产能向 HBM3E 迭代。公司预计将于利川工厂生 产 HBM3E,清州 M15 工厂闲置空间新增 HBM 产线,预期于 24H1 量产 HBM3,同时清州 正在兴建的 M15X 厂房也将作为 HBM 生产基地,产能预期于 25H1 开出。根据先前海力士 23Q3 业绩电话会,24 年公司的 HBM3 和 HBM3E 产能已全部售出,正与客户、合作伙伴 讨论 25 年 HBM 供应。根据 Digitimes 24 年 4 月 15 日、3 月 11 日和 2 月 7 日报道,23 年 以来海力士已从韩美半导体订购逾 2000 亿韩元的 TC 键合设备,包括 Dual TC Bonder Griffin 及 Dual TC Bonder 1.0 Dragon,而同时 24 年海力士将于 HBM 投资超 10 亿美元, 其中大多新投资将用于改善封装制程,包括 MR-MUF 键合工艺和 TSV 技术,从而提升其 HBM 产品散热能力和生产效率。考量新设备安装后扩大量产仍需时间,海力士计划 24 年 底实现将 HBM 产能增加 2 倍,从 23 年每月 4.5 万片晶圆提升至 24 年底每月 12-12.5 万 片晶圆。
根据 Digitimes 24 年 1 月和 Trendforce 24 年 3 月报道,24 年三星决定将 HBM 产能投资 增加近 3 倍,从 23 年每月 4.5 万片晶圆提升至 24 年底每月 13 万片晶圆,25 年也将进行 类似规模的投资。根据 Digitimes 23 年 12 月汇总信息,23H2 以来三星在设备采购和产线 增加上动作积极:1)Theelec 12 月 5 日报道,三星以 5 亿韩元单价从 Shinkawa 订购 16 台键合设备,其中 7 台已交付,推测该批设备将服务于英伟达 GPU 相关的 HBM 和封装业 务;2)韩媒 ZD Net Korea 12 月 1 日报道,韩国设备供应商 YEST 收到三星 123 亿韩元 HBM 加压设备订单,发往三星天安生产线;3)三星于 CES 2024 宣布计划在 2024 年将 HBM 年产能扩大 2.5 倍以上,并随后投资 105 亿韩元从子公司三星显示(SDC)处收购天 安工厂的建筑和设施。根据韩国经济日报 24 年 3 月 28 日报道,三星管理层在 Memcon 2024 宣布上调 24 年 HBM 产能预期至 23 年的 2.9 倍。
HBM 供需测算:24-25 年需求高速增长,供给缺口短期难以缓解
综合 Trendforce、Semianalysis 和 Digitimes 等多方信息,我们对 2024 年 HBM 产能和需 求做出预测,我们预计 24/25 年 HBM 需求动态缺口约为产能的 5.4%/4%。
供给侧关键假设: 1) 产能假设:以 HBM 与 TSV 产线晶圆投入量为计,我们预期截至 2024 年底海力士、 三星和美光将分别投入 12-12.5 万片/月、13 万片/月和 2 万片/月。考虑后道设备交付 时间较长,以及新设备安装后扩大量产仍需时间,我们预测 24 年三星、海力士和美光 HBM 产线平均月度晶圆投入量将达 8.5 万片/月、8.5 万片/月和 1.2 万片/月。鉴于海 力士和美光25年HBM产能亦出现售罄迹象,结合前文三星25年HBM扩产投资计划, 我们认为 25 年三大厂商扩产仍将持续,预测 25 年三星、海力士和美光 HBM 产线平 均月度晶圆投入量将达 11.5 万片/月、12.5 万片/月和 4.0 万片/月。
2) 切割良率假设:根据美光官方公布 HBM3E 产品细节,HBM3E 单片 DRAM 尺寸约为 为 121 平方毫米(11mm x 11mm),因此单片 12 英寸晶圆理论可切割 HBM3/3E DRAM 491 颗。同时,引用韩国经济日报 21 年 7 月报道,我们估计 DRAM 切割良率约为 90%, 故单晶圆可切割 DRAM 442 颗。 此外,根据 Digitimes 24 年 3 月报道,鉴于 TSV 穿孔和键合过程易带来芯片翘曲,海 力士 HBM3/ TSV+键合工艺良率仅 60%-70%,较一般 DRAM 低 20-30pct,而海力士 采用的 Advanced MR-MUF 键合已较三星和美光采用的 TC-NCF 键合在良率上有所优 势,因此美光和三星 HBM 键合良率可能更低。同时,台媒科技新报 24 年 3 月报道指 出,供应商试图拉高良率会带来产量下降,鉴于 HBM 产能吃紧,因此确保产量优先级 更高。结合上述信息,我们认为美光和三星 HBM3 量产后,伴随产能爬坡,工艺良率 将有所提升并趋于稳定,但使用 TC-NCF 键合所以良率仍将低于海力士,预测 24 年 海力士/三星/美光整体 HBM 良率 60%/40%/45%,25 年小有爬升,将是 60%/42%/47%。
3) 单个 DRAM 容量假设:伴随 HBM3/3E 产能不断开出,HBM 产品组合将向 HBM3/3E 倾斜,根据 Yole Intelligence 24 年 2 月报告,23 年 HBM3 产量占总产能的 33%,24 年 HBM3/3E 产量占比将跃升至 81%(HBM3:62%,HBM3E:19%),25 年将进一 步提升至 89%。我们认为,海力士作为英伟达 HBM3/3E 主供,产能向 HBM3/3E 倾 斜将更为激进;与之相比,三星凭借其“一站式策略”承接更多云厂商自研芯片的 HBM 需求,因此 HBM2/2E 仍占部分产能;美光计划通过 HBM3E 追赶市场份额,在产能本 不富裕的情形下,扩产 HBM3E 并顺利交付将是首要发力点。因此,我们预测,24 年 海力士/三星/美光 HBM 的单片 DRAM 容量为 2.2/2.1/3.0GB,25 年伴随芯片迭代及 HBM3E 产能开出,其占比将持续扩大,带动 HBM 的单片 DRAM 容量提升至 2.6/2.4/3.0GB。
需求侧关键假设: 1) CoWoS 产能假设:结合台积电 23 年底 CoWoS 月产能为 1.9 万片,考虑产能爬坡时 间,我们预测 24 年台积电动态 CoWoS 产能为 2.8 万片/月,与外溢部分合计 3.3 万 片/月,24 年 CoWoS 总产能约 39.6 万片;25 年除去台积电 CoWoS 产能扩张,英特 尔 EMIB、Amkor 和 ASE 等外溢产能同样有望进一步开出,预测 25 年 CoWoS 月产 能 5.2 万片,总产能 62 万片。 2) 各厂商 AI 芯片单晶圆切出量、单卡 HBM 堆栈数量以及单 HBM 堆栈容量:我们基于 各 AI 芯片尺寸计算每片切出芯片数目,并根据 HBM 参数,结合各厂商取得的 CoWoS 产能,以芯片出货量为权重计算三项参数的加权平均。产能分布上,我们认为 24-25 年 HBM 需求仍以英伟达 AI GPU 为主体,英伟达 24-25 年仍将每年取得逾 40%产能, 同时关注到AMD MI300、谷歌TPU v5、AWS Trainium/Inferentia以及英特尔Gaudi 2/3 带来的需求增量;单晶圆切出量上,伴随设计尺寸增大,以及 Blackwell 对比 Hopper 产能占比提升,25 年每片切出的 AI 芯片将随之下降;结合前文,虽然每片切出数目 减少,但单卡 HBM 堆栈数目增多、层数增高和容量增大将是大势所趋。因此,我们 预测 24/25 年单晶圆平均切出 AI 芯片 39/38 颗、单卡平均 HBM 堆栈数量 5.3/5.9 颗, 以及单 HBM 堆栈平均容量 14.0/14.7GB。
基 于 以 上 假 设 , 我 们 预 测 24/25 年 HBM 总 供 给 1067.3/1933.1 mn GB , 同 比 +123.3%/81.1%,其中 24 年海力士、三星和美光分别占总供给的 57%、36%和 8%,伴随 美光 25 年 HBM 产能开出,海力士、三星和美光 HBM 供给量将分别占总供给的 50%、35% 和 15%。同时,我们预测 24/25 年 HBM 总需求 1128.6/2014.3 mn GB,由此测算得 24/25 年 HBM 供给缺口约为产能的 5.4%/4%。鉴于三大厂商均提及与下游讨论 25 年 HBM 供应, 我们认为 24 年 HBM 扩产后,25 年缺口虽收窄但仍将维持轻微的供给不足,从而使得 HBM ASP 维持稳定。以 ASP 11 美元/GB 测算,对应市场空间 124.1/221.6 亿美元,同比 +125.6%/78.6%。

从 AI 服务器需求看 HBM,高速增长带来内存新增长点
AI 服务器的兴起拉动 HBM 市场需求持续增长。根据 TrendForce 23 年 4 月报道,现阶段 通用服务器 DRAM 约为 500-600GB,而 AI 服务器则需要更多,平均为 1.2-1.7TB,其中 HBM 容量为 320-640GB。随着 AI 模型日益复杂,对服务器训练速度的追求将越来越高, 因此 DRAM 和 HBM 是必不可少,同时,在 SSD 容量提升上亦呈现扩大的态势。Trendforce 估计未来 AI 服务器每台 DRAM 容量为 2.2-2.7TB,其中 HBM 容量为 512-1024GB。根据 海力士 23Q3 业绩电话会,管理层预期未来 5 年 HBM 总市场规模的 CAGR 为 60%-80%。 AI 服务器市场火热亦可从服务器厂商业绩略见一斑。2024 年 2 月 29 日盘后 Dell 发布 FY24Q4 业绩,Servers and networking 业务收入环比增长 4.3%至 48.57 亿美元,超过彭 博一致预期的 48.09 亿美元,AI 服务器出货达 8 亿美元。展望未来,公司的 AI 服务器累计 在手订单增长至 29 亿美元,接近第三季度 16 亿美元的两倍,因此将带来稳健的增长前景, 公司预计 Infrastructure Solution Group(ISG)板块(分为 Servers and networking 和 Storage 业务,包含 AI 基础设施中的储存产品 PowerScale)将受益于来自 AI 客户的强劲 需求,同步增长 15%-17%(mid-teens growth)。业绩发布后一交易日,Dell 股价盘中一度 飙升至 131.1 元的高点,最终收盘于 124.59 美元,上涨 31.62%。
竞争格局:三大厂商瓜分 HBM3/3E 市场,各显神通角逐 HBM4
在半导体行业,先进制程技术的发展呈现资金和技术壁垒不断提高的趋势,HBM 所需工艺 的复杂性和其应用场景,以及对供需双方深度合作的要求,使得行业格局集中于海力士、 三星和美光三大厂商。综合 Yole Intelligence 24 年 2 月发布的全球 HBM 市场报告,23 年 海力士市场份额为 56%,三星市场份额为 41%,美光市场份额为 3%。
美光:跳过 HBM3,1-β制程 HBM3E 加速追赶
我们看好美光 HBM 业务的逻辑不是其“赢在起跑线上”,相反,美光并非 HBM 市场的先 行者,但我们预期美光将是本轮 HBM 高速增长的主要受惠者:1)中短期内 HBM 市场仍 将供不应求,美光 HBM3E 可作为“二供”承接溢出订单,同时其相较同业竞品更优的产 品性能也有利于帮助其扩展下游客户;2)HBM3E 相较传统 DRAM ASP 更高,借助 HBM3E 的营收贡献美光利润率有望迎来优化,同时 HBM 销售多基于年度合同,相较传统 DRAM 大宗商品属性更低,拥有更好的抗周期性;3)与海力士和三星不同,美光借 HBM3E“重 启”HBM 业务几近“从无到有”,2023 年 HBM 市场份额仅为 3%,低基数带来相较前两 者更高的成长性;4)英伟达扶持,受益于英伟达大量 HBM 需求。23 年英伟达 H100 HBM3 由海力士独供,我们认为一方面海力士 HBM3/3E 产能扩展有限,为保证 AI 芯片按期交付, 英伟达积极扶持美光作为 HBM“二供”;另一方面也是出于避免过分依赖海力士,防止海 力士一家独大的考量,寻求替代方案,“货比三家”从而掌握更大的议价主动性。目前海力 士 HBM3/3E“独供”格局已被打破,截至 24 年 4 月中旬,海力士和美光 HBM3E 均已通 过英伟达效能验证,确认供货 H200,三星 HBM3E 仍在验证进程中,但 Digitimes 24 年 4 月 15 日报道指出三星上修 24 年 HBM 出货目标及访台谋求 HBM 合作当作积极,或隐含英 伟达产品验证进程顺利。 我们认为美光能否借 HBM“东风”成功实现估值重估,关键在于在 HBM 的蛋糕不断做大 的前提下,其能否成功抢占份额:1)产能:当前美光 HBM 产能较海力士和三星仍然较低, 24-25 年美光能否成功扩产并满足下游需求将是关键;2)良率:相较海力士 MR-MUF 键 合,美光和三星均使用 TC-NCF,键合技术良率仍然较低,能否通过良率提升进一步减少 损耗成本,同时变相提升产能也将是未来发力重点。
美光并非 HBM 领域的先行者,自研 HMC 未获广泛应用。2011 年 9 月,英特尔于开发者 论坛(IDF)介绍其与美光合作开发的 HMC(Hybrid Memory Cube 混合内存立方体)技 术,同样基于 TSV 技术构建 DRAM 堆栈,以解决 DDR3 面临的带宽问题。但限于成本高 昂及并非开放标准,并未获得业界广泛采用。根据 Microprocessor Report 14 年 9 月的报 道,富士通 Sparc64 XIfx 是为数不多采用美光 HMC 的处理器之一,搭载于 15 年推出的富 士通 PRIMEHPC FX100 超级电脑。2018 年 8 月,因未获市场采纳,美光宣布放弃 HMC, 转向 HBM,2020 年 3 月美光开始提供 HBM2 产品,面向高端 AI 芯片的显存方案,并于 2020 年 7 月宣布量产 HBM2E,此时较 2016 年三星率先发布 HBM2 已然过去近 4 年。 美光跳过 HBM3,意图通过 1-β制程占领 HBM3E 市场份额。为追赶 SK 海力士和三星, 美光决定跳过 HBM3 直接生产 HBM3E。2023 年 7 月,美光宣布与台积电 3D-Fabric 联盟, 推出 1-β制程的 HBM3E,其 DRAM 堆栈为 8 层,提供 24GB 容量,带宽、传输速度达到 1.2TB/s、9.2Gbps。24 年 2 月 26 日,美光率先宣布实现 HBM3E 量产,确认供货英伟达 H200,24 年 3 月美光已宣布出样 12 层 36GB HBM3E,预期 25 年量产。
对比海力士和三星的 HBM3E,美光布局较晚,欲在工艺上弯道超车,提升产品性能。根据 公司 FY24Q2 业绩会,美光 HBM3E 相较于同代竞品实现约 10%的性能提升,降低约 30% 的功耗,管理层称美光 HBM3E 的性能优势获得客户青睐,并证实其跳过 HBM3 直接布局 HBM3E 战略的可行性:1)制程上:根据 Digitimes 24 年 1 月报道,美光和海力士 HBM3E 均采用1-β制程,领先于三星的1-α制程,而美光预期于25年率先量产下一代1-γDRAM, 由于 HBM 本质是 DRAM 堆叠,若率先采用 1-γ制程的 DRAM 将同样为 HBM 产品带来性 能优势;2)布局中国台湾,加强供应链合作:根据台媒数位时代 24 年 3 月专访中国台湾 美光董事长卢东晖的报道,结合 Digitimes 24 年 3 月相关新闻,美光 HBM3E 封测和出货 均在中国台湾完成,自产品设计阶段开始与中国台湾供应链合作紧密,例如,在中国台湾 供应链部分,美光与 IP 供应商合作提供 GPU 与 HBM 快速交互的相关技术。同时,相较三 星集存储、AI 芯片设计、晶圆代工和封装为一体,美光定位与海力士接近,与台积电不存 在竞争关系,因此自 HBM3E 研发初期开始即可以与台积电紧密合作商讨 HBM 与 GPU 整 合方案,鉴于英伟达和 AMD 等下游客户是台积电 CoWoS 的“头号客户”,美光与台积电 的合作加速客户验证其 HBM3E 进程,纠错过程亦更易进行。同时,三星 24 年 3 月下旬访 台就 HBM 加强与台积电合作,并拉拢更多供应链伙伴,海力士 HBM 开发过程中也曾数次 访问台积电,侧面印证 HBM 供应链合作的必要性。
SK 海力士:超越三星的 HBM 领头羊,先发优势、领先制程和键合工艺稳坐头把交椅
我们认为,海力士自独供英伟达 HBM3 开始的先发优势使得其坐稳行业龙头,但面对来势 汹汹的美光,其在 HBM 市场 50%左右的份额能否保持则有待观察。尽管英伟达对 HBM3E 需求增加,但 AMD 和云厂商自研芯片对 HBM3 需求也不可忽视,24-25 年 HBM3 仍将是 海力士营收增长的“基本盘”。相较美光和三星,海力士已积累与下游客户合作的丰富经验, 如我们前文所述,其效能验证和纠错效率或较竞争对手更高;相较三星,海力士 HBM3 已 形成成熟供应链,良率稳定且技术较三星更有优势。 SK 海力士的第一代 HBM 与 AMD 联合开发,之后公司多次发布新产品,保持 HBM 领先 地位。2013 年 12 月,公司与 AMD 联合开发 HBM1,和 AMD Fiji GPU 一起应用于 AMD Radeon Fury 系列显卡。之后的 7 年间迭代更新 HBM2 和 HBM2E;于 2021 年 10 月推出 全球首款 HBM3,2022 年 6 月实现量产后独供英伟达 H100。2023 年 4 月推出 24GB 12 层堆叠的HBM3,通过将单个DRAM的高度磨削到约30微米(比16GB HBM3单片薄40%), 实现了与 16GB 产品相同的高度。2023 年 8 月发布 HBM3E。海力士在 CES 2024 展示的 HBM3E提供 1.18TB/s数据处理速度(发布初为 1.15TB/s),并已经于 24年 3月实现HBM3E 量产,开始向英伟达供货。根据 TechInsights 转载 24 年 2 月国际固态电路研讨会(ISSCC 2024)日程,海力士于会上 Paper 13.4 中公开其 16 层堆叠的 HBM3E 技术,提供 48GB 内存和近 1.3TB/s 的带宽。根据 Digitimes 24 年 2 月 26 日报道,业界估计 24 年海力士 HBM 营收将达 10 兆韩元(约 74.9 亿美元),相当于 23 年总营收的一半,Digitimes 该篇报道亦 假设利润率为 50%,由此推出海力士 HBM 利润约为 5 兆韩元,将占 24 年整体利润的 50%。
相较三星和美光,海力士采用领先的 HBM 键合工艺,是业内唯一将 MR-MUF 技术应用于 HBM 的公司。海力士的 HBM2 和三星 HBM 键合均采用 TC-NCF(基于热压的非导电薄膜 Thermal Compression - Non Conductive Film)工艺,该过程需要高温高压环境将凸点 (bumps)推入非导电薄膜,在单个 DRAM 高度减少的环境下更易导致芯片翘曲。海力士 在 HBM2E 中首次使用 MR-MUF(批量回流模制底部填充 Mass Reflow Molded Underfill), 通过在芯片间注入 EMC(液态环氧树脂模塑料 Epoxy Molding Compound)填充芯片之间 或芯片与凸块之间间隙。EMC 本身具备中低温固化、低翘曲、低吸水率等优点,无需借助 高温高压,可有效解决芯片翘曲从而提升良率。在设计 12 层 HBM3 时,公司采用了 Advanced MR-MUF 技术,进一步提升工艺良率和散热性能。
与三星不同,海力士没有晶圆代工业务,与台积电合作更加紧密,二者作为受益于 AI 芯片 的利益共同体,合作推进 HBM4 研发。2024 年 4 月,海力士与台积电签署合作备忘录,合 作开发预计在 2026 年投产的 HBM4,以此与三星的“一站式策略(Turnkey Strategy)” 竞争。该合作主要分为两个方面:1)海力士和台积电将首先致力改善 HBM 封装内最底层 的基础裸片(Base Die),该片与上方的 DRAM 不同,对上方的 DRAM 堆栈(Core Die) 起到控制作用,同样连接至 GPU。过往包括 HBM3E 在内的海力士 HBM 产品的基础裸片 由海力士基于自身制程工艺制造,但从 HBM4 开始采用台积电先进逻辑制程,更细微的工 艺可以在基础裸片上增加更多功能,从而满足客户定制化产品在性能和功效上更加多样的 需求;2)双方将进一步优化海力士 HBM 产品和台积电 CoWoS 技术融合,改善性能表现。
三星:依托自家晶圆代工部门,一站式策略追赶海力士市场份额
三星于23H2开始量产16GB/24GB 1-Z HBM3,根据Trendforce 24年 3月报道,其16/24GB HBM3 已于 23 年底确认供货英伟达,打破海力士作为英伟达 HBM3“独供”格局。GTC 2024 期间三星展示其 12 层 36GB HBM3E,预期于 24H2 实现量产。英伟达 CEO Jensen Huang 会上于三星 12 层 HBM3E 旁签下“Jensen Approved”,确认该产品正在通过英伟达效能验 证。Digitimes 24 年 4 月报道三星 HBM3E 测试已近尾声,最快 24Q2 开始供货英伟达,相 较之前市场预期 24H2 提前。 我们认为,三星是海力士 HBM 市场的有力竞争者,短期 HBM3 市场或难以追赶海力士, 但中期 HBM3E/4 将凸显其优势:1)相较海力士,三星 HBM3 起步较晚,因此市场份额或 难以相匹敌,然而 24 年 2 月三星 12 层 36GB HBM3E 已经宣布开发完成,且带宽提升相 较海力士更为激进,若三星成功于 24H1 量产 HBM3E,并后续通过英伟达验证,则将与海 力士重回同一起跑线;2)对比海力士和美光,三星的独特之处在于其整合存储芯片和晶圆 代工的能力,从而实现“一站式策略(Turnkey Strategy)”。中期来看,三星的“一站式 策略”将服务于 HBM4 的研发,其逻辑类似海力士与台积电的合作,三星存储与封装部门 协同将缩短 HBM4 从研发到生产的中间环节,并在未来的量产中缩短从存储颗粒制造、封 装到交付的周期,从而能占得 HBM4 及后续产品先机;3)对比海力士积极推进 HBM3/3E 产能迭代,三星在 HBM2E 市场仍然有着来自 AMD Xilinx、中国芯片厂商以及云厂商自研 芯片的 HBM 需求。例如 Xilinx Versal FPGA、Google TPU v5e、Amazon Inferentia 2 和 Trainum、壁仞科技(Biren)106 系列和燧原科技(Enflame)云燧 T20 仍采用 HBM2E, 短期内仍有部分需求。
海力士 HBM3 率先量产占得先机,三星加速迭代奋起直追。16 年 1 月,三星跳过 HBM1, 开始量产 HBM2 Flarebolt,并搭载于英伟达 Tesla P100,将海力士 HBM1 发布后因成本原 因遇冷的 HBM 技术重新拉回大众视野。纵观海力士和三星 HBM 产品的迭代时间,两家产 品“你方唱罢我登场”,同代产品更新间隔平均在半年之内,技术咬合紧密。22 年 6 月海力 士 HBM3 早于三星实现量产,适逢 22 年底 ChatGPT 发布,生成式 AI 浪潮拉动 AI 芯片需 求井喷,海力士借助 HBM3 大量供货率先受益。根据韩国经济日报 23 年 6 月 26 日报道, 三星 HBM3 Icebolt(8/12 层堆叠)于 23H2 才实现大规模量产。随后三星加速产品迭代并 积极拓展客户,公司于 23 年 10 月 20 日的 Memory Tech Day 上发布 HBM3E,并于 24 年 2 月 27 日宣布开发完成,其提供 36GB 的内存容量和 1.225 TB/s 的带宽,传输速率(9.8 Gbps)相较海力士(9.2 Gbps)的同代产品更为激进,该 HBM3E 现已向客户送样,预期 于 24H2 实现量产。根据 Trendforce 24 年 3 月新闻,三星 HBM3 已通过 AMD 产品测试, 预期将搭载于 MI300X,并已向英伟达供货。24 年 3 月 20 日 GTC 2024 上英伟达确认三星 HBM 产品处于验证阶段,当日三星电子涨逾 4%,创 24 年 1 月 19 日以来最大单日涨幅。
三星大力推进 HBM 扩产,抢占 HBM3/3E 市场份额。23H2 以来三星在设备采购和产线增 加上动作积极:1)Theelec 12 月 5 日报道,三星以 5 亿韩元单价从 Shinkawa 订购 16 台 TC 键合设备,其中 7 台已经交付,推测该批设备将服务于英伟达 GPU 相关的 HBM 和封 装业务;2)韩媒 ZD Net Korea 12 月 1 日报道,韩国设备供应商 YEST 收到三星 123 亿韩 元 HBM 加压设备订单,发往三星天安生产线;3)三星于 23Q3 业绩会宣布计划在 2024 年将 HBM 年产能扩大 2.5 倍以上,并随后投资 105 亿韩元从子公司三星显示(SDC)处收 购天安工厂的建筑和设施。CES 2024 媒体见面会上,三星电子管理层透露 25 年计划继续 将 HBM 产能扩大 2 倍,而根据韩国经济日报 24 年 3 月 28 日报道,三星管理层在 Memcon 2024 宣布上调 24 年 HBM 产能预期至 23 年的 2.9 倍。
HBM4:三大厂商方案齐出,混合键合延迟导入影响几何?
HBM4 是 HBM3E 下一代产品,当前行业标准尚未明确。综合三大厂商的技术路线图并结 合 Tom’s Hardware 等媒体信息,HBM4 相较 HBM3E 在容量和带宽上均有提升,预期将提 供 36-48GB(v.s. HBM3E 24/36GB)内存和 1.5-2TB/s 带宽(v.s. HBM3E 1.2TB/s),其 技术实现主要基于键合层数的提高(16 层 v.s. HBM3E 12 层)及内存接口数目翻倍(2048 位 v.s. HBM3E 1024 位),有望于 25 年推出并在 26 年实现量产。 Tom’s Hardware 于 23 年 11 月援引韩媒中央日报报导,海力士正在与包括英伟达在内讨论 HBM4 集成设计方案,计划与英伟达合作开发新的 GPU,拟将 HBM4 与逻辑芯片垂直堆叠 在一起,通过 3D 封装实现在单芯片上存储器与逻辑芯片的垂直整合。该设计:1)免去 HBM3E 设计中围绕逻辑芯片堆栈所带来的中介层复杂布线需求,从而简化设计并节约封装 成本;2)同时可进一步提升封装密度(在同样面积上铺设更多数量的元器件),缩小封装 尺寸;3)3D 封装采用更细小、更密集的电路,缩短线路之间的传输距离,提升指令的相 应速度和降低功耗。 然而 Tom’s Hardware 该篇报道亦指出,将存储器与逻辑芯片垂直整合的设计带来一定优越 性的同时,因为在较小的封装体内堆叠多个芯粒,对散热也提出更高要求。参考采用 V-Cache(将一块 L3 Cache 置于 CPU 顶部)的 AMD CPU,通过对架构和硅平面的优化 来缓解散热问题,例如 AMD 在 SRAM 单元中设计了 3D 64MB SRAM(Static Random Access Memory),并避免其堆叠以保持低热密度,两侧采用了结构硅从高密度核心中逸出 热量,并可通过控制芯片 TDP 和主频以补偿垂直堆叠产生的额外热量,不过,HBM 与 GPU 的功耗远高于 CPU,集成时的散热考量将更为复杂,因此合适的散热方法将是该设计成功 的关键。

HBM4 的迭代将带来三方面挑战:1)芯片间键合工艺成为攻克关键,以应对散热和良率两 大难题。16 层堆叠在提升堆叠层数的同时需要磨削单片 DRAM 高度,并尽量缩小 DRAM 间距,以控制产品尺寸。TF-NCF 等上一代键合工艺亟待改良,混合键合有望成为主流技术; 2)2048 位内存接口要求中介层(Interposer)布线更加复杂,如何连接 HBM 堆栈和逻辑 芯片带来不同设计方案,海力士和三星探索存储器和逻辑芯片垂直集成;3)2048 位内存 接口及带宽提升同样需要单位面积上更多的 TSV 穿孔以提升 DRAM 堆栈的垂直互联密度。 铜-铜混合键合(Cu-Cu Hybrid Bonding)代替微凸点,提升 I/O 密度、散热性能和能耗 表现,在 HBM 层高不断增加的趋势下更适应应用场景。微凸点技术下,芯片间通过上下凸 点的焊接实现互连,而混合键合则实现无凸点(Bumpless),上下芯片间采用铜垫片直接连 接。因为不依赖焊料,铜-铜混合键合可实现超细间距和更小的接点尺寸,从而实现单位面 积上更多的接点数量。根据 Semianalysis 和 3D InCites,混合键合实现的单位面积接点数 量是微凸点的 1000 倍,,以达到更高的 I/O 密度。微凸点的焊料会在上下芯片间带来大于 30 微米的间距,而铜垫片因为上下直接接触不存在焊料球,芯片间间距可控制在 10 微米, 同时混合键合的散热效率相较微凸点提升约 20%。
我们认为,存储和晶圆代工的合作将是混合键合引入 HBM4 的必经之路,我们前文所述海 力士与台积电合作推进 HBM4 研发、三星电子整合存储和晶圆代工以服务 HBM4,就是该 模式的直接体现。混合键合工艺流程可简略归纳为:1)通过化学气相沉积(Chemical Vapor Deposition CVD) 和 电 镀在 基底表 面形 成绝缘 层和 铜层; 2) 通过化 学机械 研磨 (Chemical-Mechanical Polishing CMP)、清洗和离子活化后,将上下两片晶圆/芯片的铜 接点对齐;3)施压后将芯片间绝缘层贴合,两边绝缘层接触后产生共价键;4)经退火 (Annealing)升高温度后,铜接点碰撞并接合,两边铜离子相互扩散(Diffusion)进入对 方完成键合。在键合过程中,CMP 平坦化不足、清洗不足使得表面残留颗粒、对其误差和 金属表面孔隙等均有可能影响元件特性或使得元件失效。根据 Semianalysis 24 年 2 月 9 日的分析,混合键合的工艺流程涉及许多传统上仅由晶圆代工厂专用的工具,例如 CVD、 CMP 和表面离子活化等,存储厂商较难在短期内配备大规模生产条件,同时其工艺要求较 高,如清洗工艺要求需要 ISO 3 及以上(等级数字越小越严苛,如台积电和 Intel 正逐步转 向 ISO 2 和 ISO 1 级别),使得传统存储厂商难以承接混合键合。
然而,鉴于铜-铜混合键合工艺复杂,为确保第一代 HBM4 在 26 年落地,混合键合导入 HBM 生产或被推迟。根据 ZDNet Korea 24 年 3 月 8 日报道,JEDEC 的主要参与者将 12 层和 16 层 HBM4 的封装厚度标准放宽至 775 微米(对比上一代的 720 微米)。该标准放宽是三 星、海力士和美光等内存厂商与英伟达、AMD、Intel 等主要 AI 芯片公司合作磋商的结果。 内存厂商宣称上一代 720 微米厚度已到达极限,在 775 微米的条件下,现有的 MR-MUF 和 TC-NCF 键合工艺仍可用于生产 HBM4,因此放宽标准将给予三大内存厂商更多时间完 成混合键合的核心工艺开发和初始良率调整,而 AI 芯片公司接受该提案以便按时获得 HBM4。 我们认为,从内存厂商角度看,混合键合的设备要求与三星、海力士和美光现有的键合设 备和技术区别较大,ZDNet Korea 24 年 3 月报道指出混合键合设备比现有的 TC 键合机价 格高出四倍,因此需要高昂资金成本配置。而初期设备落地后在键合良率上同样面临压力, 需要额外的时间成本。从 AI 芯片厂商角度来看,鉴于芯片迭代和出货需求,比起施压存储 厂商应用混合键合生产 HBM4,接纳标准放宽以顺利推进芯片迭代和稳定 HBM 供应也是情 理之选。除此之外,我们也认为,假设现阶段存储厂商放缓键合工艺迭代,节省的成本(混 合键合设备及厂房配置开支等)或将服务于 HBM 进一步扩产,三大产商扩产动态值得进一 步关注。 对于三大厂商而言,混合键合的延迟导入或许是把“双刃剑”,机遇和风险并存。一方面, 海力士仍可凭借 Advanced MR-MUF 取得相对三星和美光的良率领先,节约的成本亦可帮 助其扩产以维持 HBM 市场份额,而另一方面,混合键合的延迟导入将给予美光和三星与海 力士在键合工艺上重回“同一起跑线”的机会。HBM4 的竞争或许会更加激烈。
我们预计美光 DRAM 业务 FY24/25/26 营收为 178/278/320 亿美元,对应营收同比为 62.3%/56.2%/15.1%。美光 DRAM 业务 FY23 营收同比下降 51%,主要受疫情初期带来的 电子产品需求见顶后的高基数影响。展望 24 年,24 年各终端应用与半导体市场以 AI 需求 为核心驱动:1)智能手机 24H1 为传统淡季,呈现缓步复苏趋势, AI 手机(如三星 Galaxy S24)表现亮眼;2)PC 24Q1 出货量已基本恢复至 19Q1 水平,24H1 PC 市况已经逐步 好转,虽然需求大规模增长尚未出现,但 24H2 PC 市场可望迎来进一步复苏;3)传统服 务器逐渐回温,订单能见度从原本 4-6 周提高至 8 周,AI 服务器订单受北美需求拉动持续 放量,24Q2 起英特尔 Eagle Stream 和 AMD 服务器 DDR5 新平台渗透率持续提升。
我们预计经过 23 年供应端主动减产以及下游对高端产品补库需求,24 年存储行业将逐步 迈入新一轮上行周期,DRAM ASP 和需求周期性回暖,带动供应端产能逐渐恢复,“供销 两旺”趋势或在 24H2 至 25 年明朗。根据 Digitimes 24 年 4 月报道,主流 DRAM 厂商自 24Q2 起持续扩大 DRAM 晶圆投片量,预计 24Q3 和 24Q4 稼动率或提升至 100%。Digitimes 该篇报道指出 DRAM 晶圆投片到产品出货间隔约 3 个月,24Q2 起主流厂商扩大投片,应 当是预期 24H2 需求稳固,24H2 产能恢复后将自 24 年底起至 25 年对 DRAM 业绩带来积 极影响。 回到 24Q2,短期内受 4 月 3 日中国台湾强震对供应链影响,DRAM ASP 或见较大涨幅, 根据 Digitimes 24 年 4 月 15 日至 17 日系列报道,该次地震对美光厂房和基础设施未造成 永久影响,单季 DRAM 供应影响约为 4%-6%,鉴于 DRAM 厂商原先已有 24Q2 DRAM ASP 调升 10-15%规划,叠加地震影响,24Q2 美光 DRAM 合约价将调涨 25%,整体主流 DRAM 合约价调涨约 20%。
我们认为,美光 DRAM 业务将迎来以下利好,核心仍是 AI 驱动: 1)AI 手机、AI PC 和 AI 服务器等新需求带来以 DDR5 和 HBM 为主导的 DRAM 市场增长 新动能。根据 Digitimes 24 年 3 月 12 日报道并结合美光 FY24Q2 业绩会信息,23 年终端 需求放缓以及下游着重去库存,导致 DDR5 在服务器和终端测渗透率爬升不及预期,而伴 随新服务器平台推出、AI PC 和 AI 手机陆续问世以及换机潮带动,24 年 DDR5 整体渗透率 有望从个位数比重进入两位数。该篇报道指出 DDR5 在 24 年初仍处于供不应求,24Q1 约 有 3%的供给缺口,伴随存储厂商陆续恢复增产,预期 24Q2 起缺口收敛至 1%,24H2 产 能将持续开出,伴随 DDR5 在服务器和终端侧渗透率快速提升,下游需求可望消化新增产 能,从而维持 DDR5 ASP 涨势。 2)通用服务器需求或见回暖,Windows 10 终止服务及 Windows 12 的推出将对 PC 需 求有拉动作用,24H2 传统设备需求或进一步复苏,带动传统 DRAM 逐步需求修复。24H1 通用服务器需求“淡季不淡”,北美云厂商 23H2 因竞价 AI 服务器,排挤通用服务器预算, 因此 24H1 将重启新一轮通用型服务器布局。其中,DDR5 方面,北美云厂商积极推进通用 服务器上 Eagle Stream 及 Genoa 等新平台导入,其中以谷歌和微软采购力度较大;DDR4 等传统 DRAM 方面,结合台积电 24Q1 和美光 FY24Q2 业绩会信息,DDR4 于 23 年持续 进行库存调节,尽管下游库存水平逐渐恢复健康,短期内成熟制程产品(如中低端服务器 和消费电子产品)需求增长并不强劲,故美光仍不倾向恢复产能,叠加 HBM 和 DDR5 需 求增长产生 DRAM 产能排挤,FY24 美光将对 DDR4 和 DDR3 等传统 DRAM 保持积极的 产能控制。
头部厂商主动减产效应显现,DRAM ASP 23H2 以来迎来修复
DRAM 下行周期中 DDR5 相较 NAND 恢复提前,23H1 见底后开始回升,24Q1 ASP 明显 改善,而 DDR4 和 DDR3 与 NAND 基本同步。根据 Bloomberg Intelligence 24 年 3 月数 据及 Trendforce 24 年 1 月统计,DRAM ASP 自 21Q4 开始下跌,连跌 8 季后于 23Q4 触 底起涨,相较峰值水平下降约 60%。23H2 以来,DRAM 行情逐步回暖,分产品代际来看: 1)DDR5:伴随供应端迎合高端产品补库需求,加速产品规格升级,提升获利能力,DDR5 出货量占比升高,渗透率持续提升,DDR5 ASP 于 23Q2 先行回升,24Q1 以 AI 为驱动的 DDR5 需求仍然保持,叠加轻微供不应求,24Q1 ASP 环比增长逾 15%;2)DDR3 和 DDR4: 受限于 23 年库存水位有待去化,以及需求总量减少,终端市场价格上涨缺乏支撑,ASP 在 23Q4 才开始回升,同时供应商持续收敛 DDR4 供给量,24Q1 ASP 环比增长约 7%。
而以应用场景来看:1)LPDDR 的价格在 23Q4 开始回升,根据 Trendforce 24 年 1 月报 道,LPDDR 买方更倾向持续建立安全且相对低价的库存水位,因此 23Q4-24Q1 不断放大 补库需求,24Q1 ASP 环比增长约 20%;2)PC DRAM 价格在 23Q4 开始回升,根据 Trendforce 24 年 1 月报道,由于 PC 机种逐渐升级至 DDR5,订单需求尚未被满足,因此 三大内存厂商涨价态度明确,24Q1 ASP 环比增长约 18%;3)服务器 DRAM 价格在 23Q4 开始回升,根据 Digitimes 24 年 4 月报道,服务器 OEM 和 ODM 24Q1 积极开展库存回补, 同时类似 PC,DDR5 市场需求仍未全面兑现,拉动 24Q1 ASP 环比增长约 20%;4)GDDR 和利基型 DRAM:根据 Trendforce 24 年 1 月报道,两者行情均受整体 DRAM ASP 涨势影 响,买方持续提前备货,叠加部分厂商和电视、网通应用存在补库需求,24Q1 ASP 环比增 长分别为 13%-18%和 10%-15%。
展望 24Q2,短期内受 4 月 3 日中国台湾强震对供应链影响,DRAM ASP 或见较大涨幅。 根据 Digitimes 24 年 4 月 15 日至 17 日系列报道,虽然 23Q4-24Q1 DRAM ASP 涨幅明显, 但客户需求并未下滑,报道同时指出,存储业界在台湾震前预期由于 23 年产能控制,24Q2 DRAM 出货量将较 24Q1 环比减少,而北美 AI 服务器需求强劲,通用服务器重启投资,供 应端届时将调涨 DRAM 报价,预期环比涨幅约为 10%-15%。台湾强震对 DRAM 供应链影 响则进一步催化涨幅,根据 Digitmes 24 年 4 月 16 日跟进美光震后恢复情况,该次地震对 美光厂房和基础设施未造成永久影响,地震停机及晶圆损毁造成影响约为数千片,对 24Q2 美光 DRAM 供应影响约为 4%-6%。因此,鉴于 DRAM 厂商原先已有 24Q2 DRAM ASP 调 升规划,叠加地震影响,Digitimes 24 年 4 月 16 日报道供应链证实 24Q2 美光 DRAM 合 约价将调涨 25%,各家 DRAM 供应商涨势一致,整体主流 DRAM 合约价调涨约 20%。

AI 拉动 PC、手机以及服务器出货量,撬动 DRAM 需求增长
PC 市场触底反弹,Windows 系统换代拉动换机潮
我们认为,在这波 AI 端侧设备的崛起过程中,AI PC 或率先成为主力,鉴于其在散热和应 用场景均具备优势,而 AI 手机将紧随其后。热传导和热对流为目前手机及电脑的主流散热 方案,而手机相对电脑散热面积小,热传导及热对流效率较低,因此在散热性上较逊色, 且手机便携性需求高,设计以轻薄为首也限制了散热系统的部署。 PC 市场 24H2 或开始复苏,美光 FY24Q2 业绩会预期 24 年 PC 出货量同比增长 1%-3%。 我们认为目前随着疫情后 PC 出货量已由高基数回落,加上 23H2 PC 库存开始恢复正常水 平,且 Windows 系统换代及 AI PC 崛起,均将带动换机潮出现,但 PC 需求回暖和 AI PC 普及并非一蹴而就,短期企业换机支出或依旧保守,因此需等到 24H2 才会出现更明显的回 暖信号。DRAM 作为 PC 供应链上游,尽管 PC 需求总量增长较小,AI PC 渗透率尚待提 升,但换机(PC 规格升级)和 AI PC 布局准备将带动下游厂商提前备货及硬件调试,使 得在未来相关端侧 AI 应用上线之后,相关硬件设备能即时兼容,因此端侧 AI 相关的 DRAM 产品(如 DDR5、LPDDR5X 和 LPCAMM2)将显著受益。 IDC 在 2024 年 3 月 6 日发布的预计中,下调了 2024 年全球 PC 出货量至 2%的同比增幅; 23Q3 全球个人电脑出货量为 6820 万台,同比虽下降 7.6%,但下滑趋势放缓,环比则增 长 7.8%,连续两个季度出现环比上涨趋势(23Q2 的环比增长为 8.3%);23Q4 全球个人 电脑出货量为 6710 万台,同比下降 0.1%,环比下降 1.4%;24Q1 全球个人电脑出货量为 5980 万台,同比上升 5.1%,环比下降 10.9%,恢复至 19Q1 水平。我们认为整体趋势表 明 PC 市场已走出低谷,24H1 PC 市况已经逐步好转,虽然需求大规模增长尚未出现,但 24H2 PC 市场可望迎来进一步复苏。
Windows 10 即将终止服务及 Windows 12 和 co-pilot 的推出将对 PC 需求有拉动作用。 微软已确定将于 2025 年 10 月 14 日终止对 Windows 10 的支持,其后用户虽仍可使用 Windows 10,但微软不会再为其推出安全更新,这意味着该版本将会暴露于各种安全风险 之中,我们认为这将触发换机需求,拉动 PC 出货量。另外,根据 PC Gamer 官网 2023 年 10 月 6 日报道,Windows 12 或将在 2024 年推出,我们认为新一代操作系统叠加 co-pilot 的推出,将有望进一步拉动 PC 需求。
AI PC 崛起,渗透率未来可期,或成未来 PC 销量增长的主要动力
英特尔于 23 年 9 月 19 日的 Innovation 大会上首次提出“AI PC”概念,端侧 AI 加速将成 为未来 PC CPU 市场的关键转折点。根据 Counterpoint 官网 2023 年 10 月 17 日预测, AI PC 的出货量在 2020~2030 年的 CAGR 将达到 50%以上,并将从 2026 年起占据市场 主导地位。根据 Canalys 官网 2023 年 9 月 18 日的预测,受苹果 M 系列芯片积极整合 NPU 推动,截至 23Q2 支持 AI 应用的 PC 已超过 500 万台;而随着 x86 架构也开始增强其 AI 功能,AI PC 出货量 2024 年迎来大幅提升,Digitimes 24 年 4 月 11 日援引 Canalys 预测, 2024 年将有 5000 万台具有 AI 运算功能的 PC 出货。
PC 厂商正在积极探索从 Smart PC 向 AI PC 转变,扩展丰富的 AI PC 应用场景,联想提 出“All For AI”战略,全栈智能布局全面升级。2023 年 10 月 24 日,联想在 Lenovo Tech World 2023 上首次展示了 AI PC、大模型压缩技术、人工智能双胞胎(AI Twin)等创新产 品。联想 AI PC 计划于 2024 年 9 月后正式上市。AI Twin 是可在多平台、多环境上运行的 对话个人 AI 助手,可通过压缩模型在大模型终端设备上离线运行,譬如参考用户的旅行日 记和笔记,为用户提供更个性化的旅行计划。混合 AI 大模型框架包括私域大模型的微调、 个人大模型的压缩以及数据管理+隐私保护技术等 3 项技术,让企业可通过特定数据进行额 外的训练和微调,在端侧再加入企业知识矢量数据库中的特定知识,从而有效处理特定任 务,并得到精确的结果。AI Twin 和大模型压缩技术可跨终端、跨平台、跨架构,让个人在 终端体验到 AI,而升级的基础设施和应用服务,则能让企业使用 AI。
当然,AI PC 渗透并非一蹴而就,根据 Digitimes 24 年 3 月援引中国台湾 IC 业界观点, 预期 AI PC 24 年渗透率约 5%。报道指出,由于当前 AI PC 尚无明确定义,24 年各厂商难 以推出符合规格的产品,若以能够运转边缘生成式 AI 模型的 PC 产品做初步判断,多数业 者认为在应用面仅有Co-pilot支撑全局的情况下,AI PC需求爆发的时机尚未成熟。但同时, 报道称业界对 AI PC 相关芯片出货看法相对乐观,鉴于 AI PC 的硬件端升级要早于相关应 用落地,24 年 PC 整体规格升级需求将有显著提升,许多原定在 2023 年导入的新技术延 期至 2024 年,带动 ODM 和 OEM 提前备货建立库存。 展望 2025,各大芯片和 PC 厂商纷纷进军 AI PC,促进商业化落地节奏,25 年 AI PC 将在 个人电脑市场占据重要份额。微软预计 Co-pilot 等 AI 应用将在 Windows 使用中日益重要, 并鼓励相关芯片制造商将 AI 功能构建到 CPU 中。联想目前 AI 已扩展到各类中高端产品系 列,如 YOGA、游戏本 Legion、中小企业用户 ThinkBook 和商用 ThinkPad 等产品系列。 ThinkPadX1 系列和 YOGA 系列中的第一代产品都符合联想提出的智能 PC 理念。苹果则 考虑每年花费 10 亿美元开发其生成式 AI 产品,积极推进 5G 芯片在 MacBook Pro 产品线 上的落地,公司预计发布时间在 2025 年。惠普、宏碁等也进一步加大与关键软件服务商 和芯片供应商合作,将重新设计 PC 架构,相关 AI 笔记本方案会将在 2024、2025 年陆续 推出。
AI 手机引领旗舰潮流,中端机种开始全面渗透,拉动 LPDDR5X 需求
我们认为截至 24Q1,手机市场已经开始逐步复苏。根据 IDC 24 年 1 月数据,2023 年全球 智能手机出货量为 11.6 亿部,同比虽下降 3%,但 23Q3 至 24Q1 连续 3 个季度呈现同比 上涨趋势(23Q3/23Q4/24Q1 同比增长 0.3%/8.6%/7.7%),2024 年出货量预计同比增长 2.8%。根据 Digitimes 23 年 3 月报道,2024 年全球 AI 手机出货量或增至 1.7 亿台,占手 机市场出货比重达 14%-15%。美光 FY24Q2 业绩会透露 AI 手机相较传统非 AI 旗舰机型多 出 50%-100%的 DRAM 需求,而鉴于手机功耗限制,因此带动 LPDDR5X 需求。Digitimes 24 年 3 月 12 日报道指出,三星的 S24 手机 AI 应用仍相对“轻量化”,主要集中于照片编 辑、翻译搜寻、写作助理等,而想在手机端顺畅运转 70 亿参数的 LLM 模型需要 7-8 GB DRAM 容量,相当于当前主流手机(8/12GB)的大部分内存,为维持其他功能正常运作, AI 手机的理想 DRAM 容量需达到 24GB。
手机相对电脑散热面积小,热传导及热对流效率较低,因此在散热性上具有天然劣势,且 手机便携性需求高,设计以轻薄为首也限制了散热系统的部署。2023 年 9 月苹果推出的 iPhone 15 Pro 系列,其散热问题或带出了 AI 手机在这方面的隐忧。iPhone 15 Pro 搭载的 A17 Pro 为全球首颗台积电 3nm 制程的 ARM 架构 SoC 芯片,助力手机性能迎来突破性提 升。在运算速度层面,CPU 提高了 10%,GPU 提高了 20%,NPU 处理速度增至 A16 仿生 芯片的 2 倍,算力提升至 35 TOPS。根据 Gizchina 22 年 3 月的分析,出于机身轻薄设计 和美观需求,Iphone 系列的设计中通常不会分配大量空间配置散热材料,对比在安卓机型 广泛配置的均热板仍采用石墨薄片以确保轻薄,同时更倾向于通过硬件和程序设计主动降 频以缓解散热问题。
伴随 Galaxy S24 在内的更多 AI 手机问世,在 600 美元以上的旗舰机型渗透率有望达到 25%。以三星 24 年 1 月发布的 Galaxy 24 系列 AI 手机为例,Digitimes 24 年 3 月 28 日报 道 S24 Ultra、S24+等型号销量超标,预期 24 年 S24系列较上一代机型销售额增长逾 30%。 应对散热问题,S24 系列相较 S23 系列配置了更大的散热板(真空腔均热板散热技术 Vapor chamber),根据三星官网,S24 的散热板面积是 S23 的 1.5 倍,S24+的散热板面积为 S23+ 的 1.6 倍,S24 Ultra 的散热板面积达到 S23 Ultra 的 1.9 倍。 同时,Digitimes 24 年 4 月 12 日报道指出,伴随中国手机品牌入局 AI 手机,AI 功能开始 全面渗透进入中端手机市场。华为、小米、Vivo、Oppo 和荣耀等品牌同样加速 AI 手机产 线的布局力度。2024 年 3 月底,一加发布 Ace 3V,搭载 Snapdragon 7+ Gen 3 平台,售 价为人民币 1,999 元起,开启 AI 进入中端手机的大门;2024 年 4 月 9 日,努比亚举行 2024 年春季新品发表会,将 AI 手机价格一举压到百元机款位阶;2024 年 4 月 10 日,红米(Redmi) 也在新款手机搭配 AI 功能, Redmi Turbo 3 搭载 Snapdragon 8s Gen 3 旗舰平台,搭配 LPDDR5x+UFS4.0 内存架构,起售价为 1,999 元。从目前中端机 AI 功能来看,以 Redmi Turbo 3 为例,该机型提供 AI 通话、AI 隔空手势交互、智慧扩图、魔法消除 Pro、AI 相册 等功能;其小爱大模型还配文本创作、文章摘要、知识问答、角色扮演等功能。
AI 服务器需求强劲,通用服务器配置新平台引领换机潮
服务器方面,2024 年服务器出货的主要动能仍来自 AI 服务器,但通用服务器亦迎来换机 潮。根据 Digitimes 2024 年 1 月 2 日报道,2023 年一季度到四季度全球服务器出货量分别 为 308.7/359.1/364.6/378.5 万台,环比分别-14%/-8%/1.5%/3.8%,2023 年下半年出货量 回升主要由AI服务器带动。根据美光FY24Q2业绩会,24年服务器出货量预计增长7-10%, 由 AI 服务器需求增长和通用服务器需求回暖共同拉动,同时,一台 AI 服务器的 DRAM 容 量是通用服务器的 6-8 倍,因此快速增长的 AI 服务器需求将带动 DRAM 需求的高速增长。 AI 服务器 24 年需求维持强劲,Trendforce 24 年 2 月估计 24 年 AI 服务器出货量同比两位 数增长,占整体服务器出货的比重也将达 12.1%。AI 服务器动能同样可从台积电 24Q1 法 说会预期略见一斑,台积电 24 年 4 月 18 日法说会预期 24 年服务器 AI 处理器(用于 AI 训练和推理,不包含边端设备)营收贡献增长超 1 倍,24 年起未来 5 年营收 CAGR 逾 50%, 将是台积电 HPC 平台成长和整体营收增长的主要驱动力。

受益于通用服务器换机潮和 AI 服务器需求上升,我们预期 24 年 DRAM 产品组合向 DDR5 和 LPDDR5X 转变,带动 ASP提升。根据 Digitimes 24 年 3月 12 日报道并结合美光 FY24Q2 业绩会信息,23 年终端需求放缓以及下游着重去库存,导致 DDR5 在服务器和终端测渗透 率爬升不及预期,而伴随新服务器平台推出、AI PC 和 AI 手机陆续问世以及换机潮带动, 24 年 DDR5 整体渗透率有望从个位数比重进入两位数。该篇报道指出 DDR5 在 24 年初仍 处于供不应求,24Q1 约有 3%的供给缺口,伴随存储厂商陆续恢复增产,预期 24Q2 起缺 口收敛至 1%,24H2 产能将持续开出,伴随 DDR5 在服务器和终端侧渗透率快速提升,下 游需求可望消化新增产能,从而维持 DDR5 ASP 涨势。DDR4 等传统 DRAM 方面,结合 台积电 24Q1 和美光 FY24Q2 业绩会信息,DDR4 于 23 年持续进行库存调节,尽管下游库 存水平逐渐恢复健康,短期内成熟制程产品(如中低端服务器和消费电子产品)需求增长 并不强劲,故美光仍不倾向恢复产能,叠加 HBM 和 DDR5 需求增长产生 DRAM 产能排挤, FY24 美光将对 DDR4 和 DDR3 等传统 DRAM 保持积极的产能控制。根据 Yole Intelligence 24 年 2 月预测,2027 年,DDR5 将占 DRAM 总出货量的 80%以上。2022 年全球内存模 组出货量为 5.12 亿条,以 DDR4 为主,DDR5 模组出货量预计将从 2022 年的 0.11 亿条增 长至 2028 年的 6.42 亿条,6 年 CAGR 97%。 AMD 2022 年 11 月发布的 Genoa 和 Intel 于 2023 年 1 月发布的 Sapphire Rapids 是首 批支持 DDR5 DIMM 的服务器 CPU,其 DDR5 由美光供货。而根据 Digitimes 23 年 5 月报 道,受 IT 资本开支缩减、换机周期和整体内存市场低迷影响,客户换新意愿减弱,该批 CPU 采用率不佳。但 24-25 年采用 DDR5 的服务器 CPU 规划仍然强劲,美光有望持续为 规划中的新产品供货,并受益于 DDR5 需求。
面向 AI 的产品布局,GDDR7、LPDDR5X 和 LPCAMM2 三箭齐发
我们认为,端侧 AI 将成为 AI 计算的下一个发展重心。端侧 AI 部署是一种将 AI 模型(数 据和计算)和应用均置于个人或移动设备上运行的方式,并在处理器中新增了 NPU 模块(AI 加速器),提供更强大的 AI 算力。随着生成式 AI 模型的使用量不断增长,云端难以满足隐 私需求。端侧 AI 的发展也需软硬件的配合,包括轻量化、小型化的 AI 模型,以及高效、低 耗的 AI 芯片。为了助力 AI 在端侧运行,业界已开始压缩训练模型,并采用 FP8、FP4、INT8 等的低浮点精度格式,以降低对算力的要求,从而为 AI 训练和推理带来更大自由度,进一 步推动 AI 民主化。比如说英特尔正积极推广 SYCL 代码替代 CUDA,以完善其生态系统和 增加在高性能训练领域的竞争力,真正使人工智能适用于所有人。 相对于传统的 PC 和手机,AI PC 和 AI 手机的差异在于搭载了 AI 芯片并集成了 NPU 模块 以支持 AI 计算,如苹果 A17 Pro 的算力已达 35 TOPS。目前,全球多家厂商在 AI PC 和 AI 手机上已开始全面布局,例如高通的 Snapdragon 8 Gen3 芯片,能在手机上运行百亿参数 的生成式 AI 模型。高通于 2023 年 7 月表示,将在终端侧不断提升大模型支持的参数阈值, 让更多的云端生成式 AI 应用能向端侧迁移。2023 年 8 月随着 Snapdragon 8 Gen 3 移动平 台的推出,高通已支持超过 100 亿参数的大模型在端侧运行。谷歌 Pixel 8 AI 手机可利用 AIGC 生成具有每个人最佳表情的混合图像,还能调整视频的颜色、光线、稳定性和颗粒感; 英特尔 Lunar Lake 运用其内置 NPU 在几秒内就可生成一首 Taylor Swift 风格的歌曲和一张 戴着牛仔帽的长颈鹿图片;AMD Ryzen AI 可实现自动取景对焦、眼神矫正、高级背景特效 等多种 AI 功能。
美光面向 AI PC 和 AI 手机的产品布局:GDDR7、LPDDR5X 和 LPCAMMA2
美光于 22 年正式量产 16Gb GDDR6X,并将于 24H2 发布 GDDR7。16Gb GDDR6X 搭载 于英伟达 GeForce RTX 3090 Ti 和 40 系显卡,其性能相较之前 8Gb 版本提升了 15%,是 当时领先的独显显存解决方案。GDDR6X 提供最高 24 Gbps 带宽,以 2 通道(每通道 16 bit) 为计,可以为显卡提供最高 96GB/s 的带宽,在需要重复存取复杂图像纹理的次世代游戏场 景和图像处理工作场景中表现优异。根据 JEDEC 24 年 3 月 5 日发布的第一代 GDDR7 标 准,其对比 GDDR6X 进一步提升内存密度和带宽,可提供 16-24Gb 的内存容量和 32 Gbps 的带宽,以 2 通道(每通道 16 bit)为计,可以为显卡提供最高 128GB/s 的带宽,显卡性 能表现相较前代提升 60%。美光预期 2026年推出 GDDR7的大容量版本,带宽达 36 Gbps, 容量超过 24Gb。 根据 PC Gamer 23 年 11 月和 Tom’s Hardware 24 年 3 月的报道,GDDR7 将在英伟达下 一代 Blackwell 架构显卡以及 AMD RDNA 4 GPU 上得到应用,其中,英伟达的下一代 GeForce RTX 50 系列有望使用美光的 GDDR7,搭载 384 位内存接口,总带宽高达 1.5TB/s, 相较上一代采用 24GB GDDR6X 的 RTX 4090 提升约 50%。
LPCAMM 是一种可拆卸内存模组,可有效克服 LPDDR 和 So-DIMM (small outline dual in-line memory module 小型双内嵌式内存模组)的缺陷。个人 PC 和笔记本电脑通常采 用传统的 LPDDR 或基于 DDR 的 So-DIMM 模组。但是,由于结构上的限制,LPDDR 需直 接安装在设备的主板上,这使得在维修或进行升级时难以替换。与此相反,So-DIMM 虽然 在安装或拆卸上更为便捷,但在性能、功耗以及其他物理属性方面仍有许多限制。随着行 业对更高效、更小巧设备的需求日益增长,LPCAMM 作为搭载 LPDDR 的模组,其兼具 LPDDR 的能效表现和 So-DIMM 的易修性,同时其封装尺寸更小,在制造过程中为 PC ODM/OEM 提供了更大的灵活性。据韩媒 ZDNet Korea 24 年 1 月消息,LPCAMM 或将是 26 多年来首度取代 So-DIMM 的产品,相较 So-DIMM,其低能耗和小型封装尺寸可以使得 笔记本设计更加轻薄。
1-β制程领先竞争对手,投资美日台重点布局
对于存储芯片,制程工艺的迭代是缩减晶体管尺寸,带来单位面积上实现更小、更紧密的 晶体管布局,提升内存密度,实现更高性能的同时达到更好的功耗表现。Trendforce 24 年 3 月报告指出,DRAM 供应端大幅转进至先进制程生产 DDR5 将带来成本优化,使得供应 端利润明显改善。美光广泛在 DRAM 中应用 1-β制程带来产品更好的能耗表现,有望在下 游端侧高端产品补库和迭代时带来更高竞争力,同时进一步优化利润率,并惠及基于 DRAM 的 HBM 产品。 美光自 2021 和 2022 年分别率先量产 1-α和 1-β制程 DRAM,取得制程领先,历经三年, DRAM 产能已基本完成转换。美光于 2020 年公布 1-α制程节点(第四代 10nm 级),并于 2021 年 1 月开始量产,带来当年 DRAM 领域营收的大规模扩张。公司于 2022 年率先推出 1-β制程(第五代 10nm 级),相较 1-α,该节点可实现约 15%的能效提升和 35%以上的 内存密度提升。根据美光 FY24Q2 业绩会和 Digitimes 24 年 4 月复盘三大厂商 DRAM 工艺 进程,美光 22 年 11 月开始量产 1-β DRAM,目前已有 3/4 的 DRAM 颗粒在 1-α和 1-β 节点上生产,而三星和海力士均于 23Q2 跟进 1-β节点,目前产能仍在爬坡。与三星和海 力士分别在 1-z 和 1-α节点开始导入 EUV 以提升电路密度不同,美光 1-α和 1-β仍使用 DUV,但在光刻过程中通过多重图案化(Multi-patterning)实现绘制电路密度提升,相较 导入 EUV 无需完全改变原先生产方式,迭代初期良率更加稳定,因此先进节点产能爬坡较 三星和海力士更快。
台日承接美光 DRAM 重要产能,两地扩产同时美光加码美国工厂投资。根据台湾经济日报 23 年 9 月对台湾美光 CEO卢东晖的专访,台中厂和日本广岛厂承担美光 DRAM重要产能, 公司约有 65%的 DRAM 在台湾生产,同时台日两地团队合作研发 1-γ制程,通过台日两地 的扩产将带来更多现金流支持美光未来的全球布局。Nikkei 2023 年 5 月报道美光计划未来 向广岛 DRAM 工厂投资 5000 亿日元,并借助日本政府的政策支援(包括 1920 亿日元的补 贴)向广岛厂引进 EUV,计划 26 年将广岛 EUV 产线投产。 22 年 7 月,美国参议院以 64 票对 33 票的正式通过了《芯片与科学法案》立法,该法案授 权美国政府向美国芯片制造商提供约 520 亿美元的赠款和其他激励措施。响应《芯片与科 学法案》的美国芯片制造回流,美光着手扩建爱达荷州工厂并兴建纽约州工厂,分别计划 未来 10 年投资 150 亿美元和未来 20 年投资 1000 亿美元。根据 Digitimes 24 年 4 月 26 日 报道,美光受益于《芯片与科学法案》,获 61.4 亿美元直接补贴,以及 75 亿美元借贷额度。
竞争格局:行业高度集中,三足鼎立技术咬合紧密,制程产品各有千秋
传统 DRAM 受 JEDEC 组织规范,标准化程度较高,相较于 HBM 等高端产线有着更强的 大宗商品属性,同代产品间差异较小。DRAM 行业高度集中,早在 2014 年已确立三寡头 格局。2005 年,DRAM 市场的主要参与者为三星电子、SK 海力士、美光、南亚科技、尔 必达(Elpida Memory)和英飞凌。奇梦达(Qimonda)于 2006 年 5 月 1 日由英飞凌的内 存部门拆分而成。2008 年金融危机后,存储行业进入下行周期,奇梦达于 2009 年 1 月 23 日宣布破产清算,必尔达在 2013 年 7 月 31 日被美光收购,自此,DRAM 市场的三足鼎立 格局确立。 以营收为计,23Q4 三星/海力士/美光的 DRAM 市占率分别为 46%/32%/19%,其中:1) 三星 23Q4 DRAM 营收 80 亿美元,环比+53%,主要系年底 IT 采购高峰拉动,三星 DRAM 产能远大于海力士和美光,得以支持更大的订单量。根据 Digitimes 24 年 3 月报道,三星 DRAM 产能约为海力士 1.5-2 倍;2)海力士 23Q4 DRAM 营收 55 亿美元,环比+19%,受 益于 HBM3 独供英伟达,海力士 23 年市场份额从 23Q1 的 24%跃升至 23Q4 的 32%;3) 美光 FY24Q2 DRAM 营收 42 亿美元,环比+21%,由于 HBM 布局较晚,美光市场份额从 23Q1 的 27%回落至 23Q4 的 19%。
2023 年 5 月 SK 海力士紧随美光跟进 1-β节点,24 年着重 1-α和 1-β节点产能爬坡。根 据 Digitimes 23 年 12 月报道,海力士规划 24 年于利川 M16、M14 工厂扩充 1-α和 1-β的 产能,并将从 1-αDRAM 开始着手导入 EUV 制程,计划在 2024 年底将 1-α和 1-β产量增 加到 DRAM 总产量的一半以上。报道同时指出,相较于美光在 HBM3E 和 LPDDR5X 等产 品广泛铺开 1-β 制程,海力士优先将 1-β制程应用于 24 年 3 月量产的 HBM3E,预期 1- β制程量产初期月产能 1.5 万-2 万片,对比海力士整体 DRAM 月产能逾 40 万片,1-β比 重仍然较低。Digitimes 24 年 4 月援引韩国业界预期,称 24Q4 海力士 1-βDRAM 产能将 约占总产能的 11%。
1-γ制程成“兵家必争”,大规模 EUV 导入或重塑格局。我们前文提到,美光领先竞争对 手率先转向 1-γ制程,将在 1-γ制程中开始导入 EUV,截至美光 FY24Q2 业绩会,1-γ制 程已开始在台中试产,并将于 25H1 先行在台中厂量产。而海力士和三星同样在 1-γ节点 研发上动作频频:1)海力士:根据 Digitimes 24 年 4 月报道,海力士内部 DRAM 技术路 线规划 24Q3 开始试产 1-γ,并随后向英特尔等客户验证产品效能,报道指出效能认证通 常持续 1-2 个月,完成之后可着手进行量产;2)三星:根据 Digitimes 24 年 4 月报道,三 星在 Memcon 2024 上公布 DRAM 量产路线图,根据计划将在 24 年底跟进 1-γ节点。报 道指出鉴于三星在 EUV 上导入更早,因此产线上估计已使用至少 30 余台 EUV 设备,同时 海力士正通过利川厂安装 6-7 台 EUV 设备,将在日后服务于 1-γ量产。 我们认为,EUV 导入 1-γ制程对于三家厂商均是风险和机遇并存,量产时间和产能均值得 关注。三星和海力士导入 EUV 较美光更早,前期积累经验或有助于两家在转向 EUV 生产 1-γ过程中更加顺畅,然而鉴于二者 24 年仍将着重于进行 1-α和 1-β产能爬坡,1-γ试产 成功后何时推出 1-γDRAM 产品并顺利进行产能爬坡值得关注;同时,美光采用 DUV 的 1-α和 1-β制程已经成熟,但 EUV 导入 1-γ仍是首次,能否攻克工程问题,实现良率和产 能爬坡将是其工艺优势维持关键。

在低功耗 LPDDR 领域,除却美光 LPDDR5X,海力士和三星也不乏同代产品。22 年 11 月,海力士将 HKMG(High-k/Metal Gate, High-k 绝缘层+金属栅极)工艺首次应用于 LPDDR5X,并在 23 年 1 月推出 1-αLPDDR5T。HKMG 工艺通过引入一层高 k 薄膜替代 SiON 栅氧化层,实现晶体管栅氧化层厚度减少同时防止漏电。更薄的栅氧化层支持晶体管 进一步微缩,源极和漏极间距离缩短,栅极电压降低,从而节约功耗。通过 HKMG 工艺, 海力士 LPDDR5X 和 LPDDR5T 的传输速率分别为 8.5 Gbps 和 9.6 Gbps,分别比上一代 提升 33%和 13%。23 年 8 月海力士 24GB LPDDR5X 开始量产,搭载于 23 年 8 月发布的 OPPO “一加 Ace2Pro”智能手机上。海力士 LPDDR5T 于 2023 年 10 月通过高通骁龙 8 Gen 3 和联发科天玑 9300 的认证,并在 2023 年 11 月开始向 vivo 供应,配置于其智能手机 X100 和 X100 Pro 中。 24 年 4 月 23 日三星宣布 10.7 Gbps LPDDR5X 研发成功。三星于 2019、2020 年分别量 产 12/16Gb LPDDR5,2021 年率先研发 14nm LPDDR5X 后,2022 年 10 月,三星宣布其 8.5 Gbps LPDRR5X 通过高通骁龙平台验证,根据 Tom’s Hardware 24 年 1 月报道,该 LPDDR5X 将为 Intel Lunar Lake MX 平台供货,搭载于轻薄型笔记本。而该款 10.7 Gbps LPDDR5X 相较前代产品效能与容量分别提高 25%及 30%以上,有望在 AI PC 和 AI 加速器 中得到应用。
我们预计美光 NAND 业务 FY24/25/26 营收为 69/122/125 亿美元,对应营收同比为 64.2%/77.1%/2.4%。22Q4 至 23H1 期间 NAND 行业主要厂商相继减产,产能利用率一度 下降至约 50%,但自 23Q3 以来 NAND ASP 逐渐回升,部分主要厂商已释放 24 年产能利 用率回升积极信号。疫情以来高基数以及下游 NAND 库存已基本在历史平均水平附近,我 们认为 24 年 NAND 复苏有望。根据美光 FY24Q2 业绩会,公司对于恢复产能声调较为保 守,预期未来数年 NAND 位元需求 CAGR 约为 21%-23%,而公司计划 FY24 NAND 供给 策略维持低产,着力于进一步优化库存,缩短周转天数,预计 NAND 需求增长将高于供给。
展望 24 和 25 年,我们认为 NAND 增长核心在于下游设备需求拉动: 1)用户端 SSD(PC 为主):根据 Digitimes 24 年 3 月报道,23 年 NAND ASP 大幅下降 带来大容量 SSD 导入 PC 的“价格甜点”,PCIe 4.0+1TB 成为 PC 市场的主流配置。同时, 伴随 24H1 PC OEM/ODM 库存回到正常水平、25 年微软停止支持 Win10,以及 Win12 带 动换机潮流,叠加 AI PC 逐渐放量,24H2 将为 PC SSD 带来增量。 值得注意的是,Digitimes 24 年 4 月 26 日报道提及,高层 QLC NAND 在 PC 中渗透率不 断提高,报道援引微软 AI PC 观点和业界对 QLC NAND 看法,指出 AI PC 搭载 LLM 和图 片/影片生成模型,将耗费大量存储容量,同时,由于用户不会立即删除生成的大量图片和 视频,带来 AI PC 所需存储空间显著提升,而伴随主流 NAND 厂商 NAND 堆叠层数均超过 200 层,为了持续提高密度及降低存储成本,QLC NAND 发展成为趋势,目前 PC OEM 采 用 QLC NAND 比重约为 20%-25%,24 年渗透率将随着 PC OEM 加速导入 QLC NAND 而 高速增长。 2)eSSD(企业级,服务器为主):与 DRAM 逻辑类似,AI 服务器对高规格设备硬件需求 以及通用服务器换机潮将带动大容量 SSD 需求。根据 Digitimes 24 年 3 月报道,24 年云 端服务器采用 PCIe 5.0 SSD 的渗透率将较 23 年翻倍,更多 8TB/16TB 或以上的 SSD 应用 需求将增加。同时,鉴于服务器成本控制,Digitimes 24 年 3 月 21 日报道指出,企业级 SSD 增速为各 SSD 应用场景中最高,而企业客户对 NAND 需求在于更高密度且成本不变 (HDD/SSD 等存储设备约占通用服务器成本的 15%),因此更高层数 NAND 将更受青睐; 3)手机 SSD:根据 Digitimes 24 年 3 月报道,24 年高阶手机将进入 512GB 以及 TB 时代, 预计全年手机平均容量将超过 200GB。同时,业界预期 24 年 QLC NAND 将导入大容量存 储的手机新品,随着影像存储需求增加及 QLC NAND 更低的单位存储成本,iPhone 及部 分国产手机品牌(如 Oppo)已进入大容量 1TB 机种采用 QLC NAND 的产品验证阶段,并 可能增加存储容量作为营销卖点。
NAND ASP 23Q3 见底回升,24 年 ASP 增长趋平稳
计算机闪存设备 NAND-Flash Memory(简称 NAND)属于非易失性存储器,与 DRAM 等 易失性存储器不同,该类存储器在断掉电源后信息仍可保留,用于更长期的信息存储。NAND 闪存开发的一个重要目标是降低每 bit 成本并提高存储密度,以便与磁性存储设备(如硬盘 驱动器 HDD)竞争。NAND 闪存因其更高的存储密度、较低的存储成本和耐用性,与消费 电子关系紧密,常见于 PC SSD、智能手机存储(eMMC 和 UFS)和数据中心存储 eSSD 等企业级存储场景。 相较 DRAM,NAND 存储密度更大,但写入速度较低,读写延迟更高,同时频繁的数据写 入会降低其使用寿命,因此通常不会作为主要存储技术出现在 HPC/AI 芯片中,而是作为 外部存储器保存运算所需的海量数据。自 2013 年三星推出商业级 3D NAND 产品以来,通 过垂直堆叠存储单元来提升存储密度的 3D NAND 成为主流技术。依每单元存储数据位数不 同,常见的 NAND 闪存可分为 SLC(1 位)、MLC(2 位)、TLC(3 位)、QLC(4 位)。随 着每个单元存储的位数增加,存储密度提高,位元成本降低,但读写速度和耐用性会相应 减少。
HBM 和 DDR5 之外,AI 将如何惠及 NAND Flash?
我们认为,NAND 在 AI 训练和 AI 推理中角色类似,从数据传输路径来看,不同于逻辑芯 片的“计算核心”和内存的“中转站”作用,NAND 承担的主要角色是存储训练和推理所 需的大量数据,因此要求在于以更低成本实现“更大容量+更高耐用+更快读取速度”。同时, 与 DDR5 受益于 AI 换机潮逻辑类似,AI 将带动 PC、手机及服务器的需求增加,驱动 NAND 供应商提供更大容量、更高速的产品。 24 年 3 月 21 日举办的 CFMS & Memory 2024 论坛上,针对 SSD“更快读取速度”,三大 厂商均有新品推出:1)三星:推出 4 通道 UFS 4.0,相较于传统 2 通道 UFS 4.0 有望实现 读写速度翻倍(从约 4GB/s 提升至约 8GB/s),以适配 AI 手机本地运行 LLM 的数据读取需 求,预期 24 年夏天出货工程样品;2)海力士:宣布 PCIe 5.0 eSSD 23 年完成客户认证, 当前准备进入量产和出货阶段,预期 24 年客户数量持续提升;3)美光:透露近期将同样 发布 PCIe 5.0 SSD,指出 SSD 升级可有效缩短 AI 训练的系统性延迟,美光 PCIe 5.0 SSD 通过加速技术可将部分模型训练时间缩短 50%。
围绕 232 层 NAND,美光瞄准 AI PC、数据中心和大容量智能手机
NAND 堆叠层数的提升带来更高的存储密度,同时亦提升了工艺难度,各大厂商技术进度 咬合紧密。根据 Digitimes 24 年 1 月和 4 月报道,2023 年至今推出的 3D NAND 层数均为 218 层及以上,2023 年 3 月铠侠(Kioxia)和西部数据(WD)推出 218 层 TLC/QLC NAND; 5 月,美光打造 232 层 6500 ION SSD 突破 TLC 和 QLC 限制,以 QLC 成本实现 TLC 效 能;8 月,海力士推出 321 层 NAND;10 月,美光发布数据中心 232 层 7500 SSD;12 月, 美光发布用户端 232 层 3500 SSD;24 年 2 月三星发布 280 层 QLC NAND 但尚未量产; 24 年 4 月美光量产 232 层 QLC NAND。
TLC 和 QLC 是当前面向数据中心高端 SSD 市场的主流方案,TLC 和 QLC 之间的取舍尚 有争议,但共同目的在于提高存储密度同时降低每 Gb 成本,兼顾提升读写性能,伴随技 术迭代,TLC 和 QLC 壁垒逐渐模糊。根据美光管理层 Alvaro Toledo 23 年 5 月在 6500 ION SSD 发布时指出,美光认为数据中心服务器使用程度密集、读写频繁,硬盘损耗大,因此 强调 TLC NAND 在数据中心场景下的优势,而美光通过 2022 年 7 月 232 层 TLC NAND 和 2024 年 4 月 232 层 QLC NAND 技术节点量产,以 QLC 成本实现 TLC 效能。
美光 24 年 4 月 26 日官宣率先量产面向客户端和数据中心的 232 层 QLC NAND,是继 22 年 7 月率先量产 232 层 TLC NAND 之后的又一次量产领先。根据美光官网,该 QLC NAND 相较三星、海力士和铠侠等竞争对手的 QLC NAND 存储密度提升 28%,相较于前代 176 层 QLC NAND,232 层 QLC NAND 存储密度提升 30%,数据传输速率提升 50%,读取效 能提升 24%,横向对比 232 层 TLC NAND,该 QLC NAND 存储密度提升 33%。基于该 QLC NAND,美光发布 2500 NVMe SSD,现已经向 PC OEM 厂商出样。与美光面向 eSSD 主打的 6500 ION SSD 理念类似,2500 NVMe SSD 同样突出以 QLC 成本实现 TLC 效能, 是面向的大容量 PC 和数据中心场景的低成本存储方案。
竞争格局:技术趋同,厂商份额差异主要鉴于产能规模
相较于 14 年以来“三足鼎立”的 DRAM 市场,NAND 市场更为分散,23Q3 CR3 为 68%, 对比 2021 年和 2022 年的 74%有所下降,23Q4 CR5 约为 95%,行业竞争更加激烈。2005 年,NAND 市场由三星电子主导(市占率 56%);2007 年,东芝(东芝存储器在 2019 年 改名为铠侠)通过业界首次开发 3D NAND 大幅提升 NAND 容量,得以快速提高市场份额; 2016 年,闪迪(SanDisk)通过与东芝合资加快 NAND 布局,而后在 2016 年被西部数据 收购。至此,五大 NAND 闪存供应商格局形成,分别为三星电子、东芝、西部数据、SK 海力士和美光,2017 年分别占市场规模的 43%/17%/13%/12%/12%。2022 年,SK 海力士 通过收购英特尔 NAND 业务完成对铠侠和美光的赶超,成为仅次于三星电子的 NAND 闪存 制造商。

复盘 NAND 主流厂商技术路线图,美光 TLC NAND 量产技术节点于 22 年 7 月率先达 232 层,并于 24 年 4 月率先量产 232 层 QLC NAND,23H2 以来海力士和三星发布更高层堆 叠 TLC NAND,主流厂商技术咬合紧密:1)三星:根据 Digitimes 24 年 4 月报道,三星 于 4 月开始量产 290 层 1Tb TLC NAND(v9),据报道,与三星上一代 236 层 TLC NAND (v8)相比,存储密度提升 50%,功耗改善 10%;2)海力士:根据 Digitimes 24 年 4 月 报道,海力士 23 年 8 月公开 321 层 TLC NAND 样品,预计 25H 实现量产;3)美光: TechInsights 24 年 3 月报道透露,美光在 232 层节点后着手开发下一代“近 300 层”节点, 该节点类似三星 280 层 NAND,同时,25 年美光或跳过 300 层直接公布 400 层技术节点 开发情况。
头部厂商技术迭代基本同步,结合千禧年以来主流厂商的并购时间和产能信息,我们认为 厂商间 NAND 技术发展和成本差异较小,而市场份额差异主要鉴于产能规模:1)根据 Digitimes 24 年 4 月报道,以 23Q4 为计,三星 NAND 减产后(约 50%稼动率)NAND 月 产能约为 40 万片,SK 海力士同稼动率 NAND 月产能约为 20 万片,铠侠和西部数据该季 度 NAND 月产能约为 30 万片,与三星(~40%)、铠侠和西部数据(~30%)和海力士(~20%) 的市占率基本相符;2)2017 年三星、东芝+西数、美光+英特尔以及海力士的市占率分别 为 43%、25%、15%和 12%,对应产能分布为 36.6%、34.7%、17.5%和 11.2%;3)2006 和 2010 年,美光分别以 8.5 亿美元和 12 亿美元收购闪存卡厂商 Lexar 和 Numonyx,次年 市场份额均迎来提升;4)2021 年之前,美光 NAND 市场份额与海力士相近,21 年 12 月 海力士完成收购英特尔 NAND 及 SSD 业务第一阶段(成立子公司 Solidigm)后,22 年市 场份额与美光拉开差距。 Trendforce 24 年 2 月报道西部数据和铠侠 24 年初曾希望重启 NAND 合并计划,但报道 同时援引市场观点,认为海力士仍将维持反对。报道指出,铠侠和西部数据合并后 NAND 产能和市占率将超越海力士,进而影响海力士在本轮 NAND 上升周期凭借市占率优势的获 利空间,因此海力士作为铠侠 15%股权的间接投资方,将维持反对态度,NAND 产能对于 市场份额重要性也可由此略见一斑。展望未来几个季度,我们认为 NAND 主要厂商的市场 份额将维持稳定,24Q1 各厂商均有部分产能调升,但整体投片仍维持审慎,具体波动将根 据 24H2 主要厂商扩产计划和下游需求恢复情况。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)