本土厂商快速崛起,产品亦逐步上市。
国内 GPU 厂商:开始快速崛起,大多数企业目前已发布 1-3 款相关产品,大部分核 心团队具有英伟达、AMD 工作经历。1)2014-2020 年,国内成立若干 GPU&云端 AI 芯 片相关企业,目前此类企业已发布 1-3 代产品,产品落地进度不断加快。2)从国产 GPU 相关企业创始人的团队背景来看,大部分企业创始人团队均有在英伟达、AMD 等企业有 多年的工作经验。

产品竞争力:国内厂商产品核心参数约落后英伟达、AMD 1~2 代左右,正逐步从“可 用”走向“好用”。1)通过对比海外 GPU 厂商和国内 GPU 厂商相关产品的参数,可以看 出国内 GPU 厂商在半精度&单精度领域中的计算能力,相差约 1 代差距;国内 GPU 厂商 在双精度(64 位)计算领域能力近乎空白,但双精度运算更多应用于复杂科学计算。2) 考虑到英伟达、AMD 在 GPU 架构中加入了张量核 TensorCore 或 Matrix Core(可用于执 行融合乘法加法运算),这种计算单元层面的 DSA 架构设计,亦使得他们在 AI 训练、推 理环节具有更高的计算效率:
英伟达 Tensor Core:2017 年公司发布的 Volta 架构首次引入了张量核 Tensor Core 模块,用于执行融合乘法加法,支持 INT32 计算;2018 年公司发布的 Turing 架构对 Tensor Core 进行了升级,并增加了对 INT8、INT4、Binary(INT1)的计算 能力;2020 年公司发布的 Ampere 架构对 Tensor Core 再次升级,增加了 TF32 和 BF16 两种数据格式的支持,也增加了对稀疏矩阵计算的支持。2022 年公司 发布的 Hopper 架构对 Tensor Core 再次升级,增加了 TF8 数据格式的支持。
AMD Matrix Core:2020 年英伟达推出张量核 Matrix Core,对标英伟达 Tensor Core,并用于 MI100 加速器(可支持 FP64、FP32 计算格式);2021 年底,AMD 发布 MI250/250X 加速卡,基于 Matrix Core 的加持下,FP64/FP32 计算能力可 提升一倍。