英伟达Blackwell Ultra核心看点在哪?

最佳答案 匿名用户编辑于2025/05/12 14:20

Blackwell Ultra平台发布,测试时扩展推理能力优化。

英伟达于GTC大会发布Blackwell Ultra平台,开启AI推理新时代。3月17日至21日美国加州圣何塞 举行GTC 2025大会,英伟达CEO黄仁勋发表主题演讲,发布Blackwell平台新一代产品Blackwell Ultra,该产品定位提升训练和测试时扩展推理能力,即通过在推理过程中增加计算量来提升准确 率,开启AI推理新时代。

基于Blackwell Ultra的产品预计将于2025年下半年出货。参考GB200时间线,GB200于GTC2024正 式发布后,同年四季度开始出货,25年一季度批量出货,GB300发布时间与GB200出货时间相隔仅 半年左右,预测GB300或于2025年下半年左右量产出货。

Blackwell Ultra计算性能提升,FP4 15 Petaflops。英伟达2025年下半年将逐步过渡升级至 Blackwell Ultra,Blackwell Ultra采用台积电N4P工艺,推理能力大幅优化,单卡FP4浮点运算 性能为15 PetaFlops,相较B200FP4的单卡算力9 PetaFlpos,Blackwell Ultra单卡FP4浮点运算 性提升50%以上。

Blackwell Ultra 存力显著提升,升级至288GB 12hiHBM3e。显存方面,Blackwell Ultra采用8 堆栈12层堆叠的HBM3e,B100、B200均为8层堆叠的HBM3e,Blackwell Ultra显存容量提升至 288GB,B200显存容量仅为192GB,相较提升50%。 Blackwell Ultra与上一代相同,支持NVLink v5,带宽1.8TB/s。

基于Blackwell Ultra的GB300 NVL72,专注大规模AI推理场景。Blackwell Ultra包括GB300 NVL72机架级解决方案和HGX B300 NVL16系统。GB300 NVL72在单机架连接72个Blackwell Ultra GPU+36个基于Arm Neoverse架构的Grace CPU,有18个Compute Tray+9个NVLink Switch Tray组 成,专注测试时扩展的应用场景。

GB300 NVL72性能优化,为上代1.5倍。GB300 NVL72性能为GB200 NVL72的1.5倍,FP4推理浮点运 算能力达到1.1ExaFlops,GB200 NVL72 FP4为1440 PetaFlops,FP8训练运算能力达到0.36 ExaFlops;配备20TB内存,上一代内存为14TB,为上一代1.5倍;总带宽为576TB/s。HGX B300 NVL16相比Hopper系列,LLM推理速度增加11倍,计算性能增加7倍,内存容量增加4倍。

内存条预计引入LPCAMM模组。GB300的外部存储预计引入LPCAMM模块,GB200采用的方案是焊接 LPDDR5X,GB300外接存储器LPCAMM支持可插拔与扩展,带来灵活性提升。 网卡升级为CX8,提升一倍。GB300预计采用800G ConnectX-8,在GB200中网卡配置为400G ConnectX-7,CX8带宽较CX7提升一倍,带宽为14.4TB/s,传输速率更快。 单卡功耗提升,但整机柜能耗预计不变。GB300单卡功耗提升到1.4kW,相较GB200的单卡功耗 1.2kW,G300B单卡功耗提升约17%,而整体机柜能耗预计仍控制在132kW。

基于Blackwell Ultra的DGX SuperPOD赋能AI推理。DGX SuperPOD AI超级计算机采用DGX GB300和 DGX B300系统,集成NVQuantum-X800 InfiniBand或Spectrum-X以太网,助力企业快速部署。DGX SuperPOD提供FP4精度计算,大幅提升AI应用中Token生成速率。DGX GB300采用液冷架构,专注高 级推理模型的实时代理响应,DGX B300采用风冷架构,专注生成式和代理式AI。