英伟达经营方面有哪些看点？ - 问答集锦

最佳答案由匿名用户编辑于2024/10/09 09:44

FY25Q2 持续高增长，B 系列机柜将成 2025 年出货主力。

1. 英伟达 FY25Q2 和 FY25Q3 持续高成长

Non-GAAP 口径下，英伟达 FY25Q2 收入 300.40 亿美元，同比增长 122%，环比增长 15%；毛利率 75.7%，同比增长 4.5Pts，环比下降 3.2pts；净利润 169.52 亿美元，同比增长 152%，环比增长 11%。

英伟达 FY25Q2 数据中心业务收入 262.72 亿美元，同比增长 154%，环比增长 16%。数据中心业务增长的关键来自于生成式 AI 模型的训练和推理；视频、图像和文本数据的预处理和后处理；合成数据生成、基于 AI 的推荐系统、SQL 和向量数据库处理。

英伟达 H200 平台在 2024Q2 开始向大型 CSP、消费级互联网客户和企业客户发货。Hopper 出货量预计在 2024H2 持续增长。Hopper 供应/可用性已经大幅改善。 Blackwell 系列芯片正在被广泛试用，生产爬坡计划在 2024Q4 开始，并持续到 2025 年；预计 Blackwell 将在 2024Q4 实现数十亿美元的收入。Blackwell 的需求远超过供应，英伟达预计这种供不应求的情况将持续到 2025 年。 FY25Q2 网络业务同比增长是由 InfiniBand 和用于 AI 的以太网推动的，其中包括 Spectrum-X 端到端以太网平台。 Non-GAAP口径下，英伟达预计FY2025Q3 将实现收入325亿美元，毛利率75%。

2.英伟达 Blackwell 和 GB200 NVL36/72 重磅发布

2024 年 3 月 19 日英伟达 GTC 大会上，黄仁勋在发布 Blackwell 产品。Blackwell 架构拥有 2080 亿个晶体管。两块晶片之间通过一条细线贴合，组成 B200 GPU （Largest Die Possible×2 = B200），也叫做 Blackwell GPU。这是两块晶片首次以这样的方式进行贴合并组成一块晶片。晶片之间进行带宽互联，数据传输速率达每秒 10TB。2080 亿个晶体管几乎同时访问与芯片连接的内存，因此 Blackwell 芯片不存在内存局限和缓存的问题。将两个 B200 GPU 与一个基于 ARM 的 Grace CPU 进行配对，再通过 900GB/s 的超低功耗 NVLink 连接在一起，可以组成 GB200 超级芯片。Blackwell 的顶部有 NVLink，底部有 PCI Express。将两个 GB200 超级芯片合并安装到一块主板上，可以组成一个 Blackwell 计算节点。Blackwell Compute Node 也叫 Compute Tray。把 18 个 Blackwell 计算节点（Compute Tray）组合在一起，可以形成新一代计算单元：GB200 NVL72（Blackwell Node × 18 + NVLink Switch X 9 = GB200 NVL72）。GB200 NVL72 中一共包含了 9 个 NVLink 交换节点（Switch Tray），每个交换节点中配置了 2 颗 NVLink Switch 芯片，向外提供 14.4TB/s 的聚合带宽。如果要训练一个 1.8 万亿参数量的 GPT 模型，需要 8000 张 Hopper GPU，消耗 15 兆瓦的电力，连续跑上 90 天。但如果使用 Blackwell GPU，只需要 2000 张，同样跑 90 天只要消耗四分之一的电力。除了训练之外，生成 Token 的成本也会随之降低。GB200 NVL72 训练和推理性能相比于等同数量的 H100 GPU 表现提升 4 倍和 30 倍。

Blackwell 架构的 GPU 产品投产，将成为英伟达 2024、2025 年的重要营收驱动。得益于客户对 AI/加速计算计划的持续支出，以及对其 Hopper H100 和新 H200 GPU 平台（Blackwell GB200/B200/B100）的强劲需求，Blackwell 架构将成为英伟达 2024、2025 年的重要营收驱动。 Blackwell Ultra 将于 2025 年发布，下一代平台名为 Rubin。英伟达以每年一次的更新节奏，构建覆盖整个数据中心规模的解决方案，将这些解决方案分解为各个部件，以每年一次的频率向全球客户推出。英伟达采用最先进的工艺技术、封测技术、内存技术和光学技术，推动产品性能的不断提升。英伟达的计算机平台能够向后兼容，且架构上与已有软件完美契合时，产品的上市速度将显著提升。因此 Blackwell 平台能够充分利用已构建的软件生态基础，实现较高的市场响应速度。Blackwell Ultra 将会确保所有产品都保持 100%的架构兼容性。

3. 英伟达 GB200 机架拥有 4 种不同形式

GB200 机架提供 4 种不同的主要外形尺寸（分别是 GB200 NVL72、GB200 NVL36x2、GB200 NVL36x2（Ariel）、x86 B200 NVL72/NVL36x2），每种尺寸均可定制 1、GB200 NVL72 需要大约 120kW/机架。通用 CPU 机架支持高达 12kW/机架，而更高密度的 H100 风冷机架通常仅支持大约 40kW/机架。每机架超过 40kW 是 GB200 需要液体冷却的主要原因。GB200 NVL72 机架由 18 个 1U 计算托盘和 9 个 NVSwitch 托盘组成。每个计算托盘高 1U，包含 2 个 Bianca 板。每个 Bianca 板包含 1 个 Grace CPU 和 2 个 Blackwell GPU。NVSwitch 托盘有两个 28.8Gb/s NVSwitch5 ASIC。

2、GB200 NVL36 * 2 是两个并排互连在一起的机架。大多数 GB200 机架将使用此外形尺寸。每个机架包含 18 个 Grace CPU 和 36 个 Blackwell GPU。每个计算托盘的高度为 2U，包含 2 个 Bianca 板。每个 NVSwitch 托盘都有两个 28.8Gb/s NVSwitch5 ASIC 芯片。每个芯片有 14.4Gb/s 指向背板，14.4Gb/s 指向前板。每个 NVswitch 托盘有 18 个 1.6T 双端口 OSFP cages，水平连接到一对 NVL36 机架。 3、带有定制“Ariel”板（而不是标准 Bianca）的特定机架，主要由 Meta 使用。由于 Meta 的推荐系统训练和推理工作负载，它们需要更高的 CPU 核心和每 GPU 更多的内存比率，以便存储大量嵌入表并在 CPU 上执行预处理/后处理。该机架与标准 GB200 NVL72 类似，但 Bianca 板被替换为具有 1 个 Grace CPU 和 1 个 Blackwell GPU 的 Ariel 板。由于每个 GPU 的 Grace CPU 内容翻倍，因此与 NVL36x2 相比，此 SKU 的价格会更高。与 NVL36x2 类似，每个 NVSwitch 托盘有 18 个 1.6T 双端口 OSFP cages，水平连接到一对 NVL36 机架。 4、B200 NVL72 和 NVL36x2 将使用 x86 CPU 而不是 Nvidia 内部的 grace CPU。这种规格称为 Miranda。每个计算托盘的 CPU 到 GPU 的比例将保持不变，即每个计算托盘 2 个 CPU 和 4 个 GPU。

参考报告

电子行业英伟达产业链跟踪报告：Blackwell将于2025年加速成长，光铜板供应链有望深度受益.pdf
- 查看报告