英伟达经营方面有哪些看点?

最佳答案 匿名用户编辑于2024/10/09 09:44

FY25Q2 持续高增长,B 系列机 柜将成 2025 年出货主力。

1. 英伟达 FY25Q2 和 FY25Q3 持续高成长

Non-GAAP 口径下,英伟达 FY25Q2 收入 300.40 亿美元,同比增长 122%,环 比增长 15%;毛利率 75.7%,同比增长 4.5Pts,环比下降 3.2pts;净利润 169.52 亿美元,同比增长 152%,环比增长 11%。

英伟达 FY25Q2 数据中心业务收入 262.72 亿美元,同比增长 154%,环比增长 16%。数据中心业务增长的关键来自于生成式 AI 模型的训练和推理;视频、图 像和文本数据的预处理和后处理;合成数据生成、基于 AI 的推荐系统、SQL 和 向量数据库处理。

英伟达 H200 平台在 2024Q2 开始向大型 CSP、消费级互联网客户和企业客户发 货。Hopper 出货量预计在 2024H2 持续增长。Hopper 供应/可用性已经大幅 改善。 Blackwell 系列芯片正在被广泛试用,生产爬坡计划在 2024Q4 开始,并持续到 2025 年;预计 Blackwell 将在 2024Q4 实现数十亿美元的收入。Blackwell 的 需求远超过供应,英伟达预计这种供不应求的情况将持续到 2025 年。 FY25Q2 网络业务同比增长是由 InfiniBand 和用于 AI 的以太网推动的,其中 包括 Spectrum-X 端到端以太网平台。 Non-GAAP口径下,英伟达预计FY2025Q3 将实现收入325亿美元,毛利率75%。

2.英伟达 Blackwell 和 GB200 NVL36/72 重磅发布

2024 年 3 月 19 日英伟达 GTC 大会上,黄仁勋在发布 Blackwell 产品。Blackwell 架构拥有 2080 亿个晶体管。两块晶片之间通过一条细线贴合,组成 B200 GPU (Largest Die Possible×2 = B200),也叫做 Blackwell GPU。这是两块晶片 首次以这样的方式进行贴合并组成一块晶片。晶片之间进行带宽互联,数据传输 速率达每秒 10TB。2080 亿个晶体管几乎同时访问与芯片连接的内存,因此 Blackwell 芯片不存在内存局限和缓存的问题。 将两个 B200 GPU 与一个基于 ARM 的 Grace CPU 进行配对,再通过 900GB/s 的超低功耗 NVLink 连接在一起,可以组成 GB200 超级芯片。Blackwell 的顶部 有 NVLink,底部有 PCI Express。将两个 GB200 超级芯片合并安装到一块主板 上,可以组成一个 Blackwell 计算节点。Blackwell Compute Node 也叫 Compute Tray。把 18 个 Blackwell 计算节点(Compute Tray)组合在一起, 可以形成新一代计算单元:GB200 NVL72(Blackwell Node × 18 + NVLink Switch X 9 = GB200 NVL72)。GB200 NVL72 中一共包含了 9 个 NVLink 交换 节点(Switch Tray),每个交换节点中配置了 2 颗 NVLink Switch 芯片,向外 提供 14.4TB/s 的聚合带宽。 如果要训练一个 1.8 万亿参数量的 GPT 模型,需要 8000 张 Hopper GPU,消耗 15 兆瓦的电力,连续跑上 90 天。但如果使用 Blackwell GPU,只需要 2000 张, 同样跑 90 天只要消耗四分之一的电力。除了训练之外,生成 Token 的成本也会随之降低。GB200 NVL72 训练和推理性能相比于等同数量的 H100 GPU 表现提 升 4 倍和 30 倍。

Blackwell 架构的 GPU 产品投产,将成为英伟达 2024、2025 年的重要营收驱 动。得益于客户对 AI/加速计算计划的持续支出,以及对其 Hopper H100 和新 H200 GPU 平台(Blackwell GB200/B200/B100)的强劲需求,Blackwell 架构 将成为英伟达 2024、2025 年的重要营收驱动。 Blackwell Ultra 将于 2025 年发布,下一代平台名为 Rubin。英伟达以每年一次 的更新节奏,构建覆盖整个数据中心规模的解决方案,将这些解决方案分解为各 个部件,以每年一次的频率向全球客户推出。英伟达采用最先进的工艺技术、封 测技术、内存技术和光学技术,推动产品性能的不断提升。英伟达的计算机平台 能够向后兼容,且架构上与已有软件完美契合时,产品的上市速度将显著提升。 因此 Blackwell 平台能够充分利用已构建的软件生态基础,实现较高的市场响应 速度。Blackwell Ultra 将会确保所有产品都保持 100%的架构兼容性。

3. 英伟达 GB200 机架拥有 4 种不同形式

GB200 机架提供 4 种不同的主要外形尺寸(分别是 GB200 NVL72、GB200 NVL36x2、GB200 NVL36x2(Ariel)、x86 B200 NVL72/NVL36x2),每种尺寸 均可定制 1、GB200 NVL72 需要大约 120kW/机架。通用 CPU 机架支持高达 12kW/机架, 而更高密度的 H100 风冷机架通常仅支持大约 40kW/机架。每机架超过 40kW 是 GB200 需要液体冷却的主要原因。GB200 NVL72 机架由 18 个 1U 计算托盘和 9 个 NVSwitch 托盘组成。每个计算托盘高 1U,包含 2 个 Bianca 板。每个 Bianca 板包含 1 个 Grace CPU 和 2 个 Blackwell GPU。NVSwitch 托盘有两个 28.8Gb/s NVSwitch5 ASIC。

2、GB200 NVL36 * 2 是两个并排互连在一起的机架。大多数 GB200 机架将使 用此外形尺寸。每个机架包含 18 个 Grace CPU 和 36 个 Blackwell GPU。每个 计算托盘的高度为 2U,包含 2 个 Bianca 板。每个 NVSwitch 托盘都有两个 28.8Gb/s NVSwitch5 ASIC 芯片。每个芯片有 14.4Gb/s 指向背板,14.4Gb/s 指向前板。每个 NVswitch 托盘有 18 个 1.6T 双端口 OSFP cages,水平连接到 一对 NVL36 机架。 3、带有定制“Ariel”板(而不是标准 Bianca)的特定机架,主要由 Meta 使 用。由于 Meta 的推荐系统训练和推理工作负载,它们需要更高的 CPU 核心 和每 GPU 更多的内存比率,以便存储大量嵌入表并在 CPU 上执行预处理/后 处理。 该机架与标准 GB200 NVL72 类似,但 Bianca 板被替换为具有 1 个 Grace CPU 和 1 个 Blackwell GPU 的 Ariel 板。由于每个 GPU 的 Grace CPU 内容翻倍,因此与 NVL36x2 相比,此 SKU 的价格会更高。与 NVL36x2 类似,每个 NVSwitch 托盘有 18 个 1.6T 双端口 OSFP cages,水平连接到一对 NVL36 机架。 4、B200 NVL72 和 NVL36x2 将使用 x86 CPU 而不是 Nvidia 内部的 grace CPU。 这种规格称为 Miranda。每个计算托盘的 CPU 到 GPU 的比例将保持不变,即 每个计算托盘 2 个 CPU 和 4 个 GPU。