中国ASIC芯片格局分析

最佳答案 匿名用户编辑于2024/03/14 08:50

寒武纪卡位最优.

算力精度门槛下,ASIC 和 GPGPU 是最适合大模型的架构。大模型云端训练多数情况 下都在 FP32 计算精度上,推理端则以 FP16 和混合精度为主。算力越强,模型效率越高。 FPGA 和 GPU 对比,虽然 FPGA 吞吐率、性能功耗比优于 GPU,但是 FPGA 存在两个天 然缺陷,FPGA 只适合做定点运算,不适合做浮点运算,如果用来做浮点运算耗费逻辑很大, 而且有些 FPGA 不能直接对浮点数进行操作的,只能采用定点数进行数值运算。其二,FPGA 可以理解成某种“芯片半成品”,需要开发人员做大量二次开发设计芯片,因此开发使用 门槛较高。ASIC 和 GPU 则能够满足大模型的入门门槛。

国内视角下,华为、百度昆仑芯、阿里、寒武纪、海光信息及一众初创企业(燧原、 天数、壁仞、沐曦)均推出云端训练和推理芯片。架构选择上,华为、百度、阿里、寒武 纪选择 ASIC 路线。华为、百度、阿里自家业务场景对 AI 芯片存在天然需求,选择 ASIC 在量产制造供应链上的难度显著低于 GPU。初创企业则押注通用型 GPGPU 架构,壁仞、 沐曦等初创企业多创立于 2018 年前后,团队一般来自出走英伟达、AMD 的技术专家,因 此技术路线多选择他们所熟悉的通用型 GPU。 AI大模型让ASIC 和 GPU之间的边界愈发模糊,国内GPU 初创企业或在竞争中落后。 英伟达在过去很长的一段时间内坚持用统一的硬件,即通用型 GPU 同时支持 Deep Learning 和图像需求。但高性能计算迭代到 H100 产品后,其计算卡和图像卡分开,在技 术路线上也愈发靠近 ASIC。初创企业为了实现通用性,选择了在芯片设计和制造供应链存 在较多困难的 GPU 路线,暂未推出真正具备量产成熟度的产品。

国产 ASIC 厂商中,寒武纪是为数不多能够较为开放支持中游 AI 算法和模型商。 1)华为选择部署端到端的完整生态,例如使用昇腾 910 必须搭配华为的大模型 支持框架 MindSpore、盘古大模型。第三方开源模型无法在华为上运行,若要运 营必须依赖华为提供的工具做深度定制和优化,开放程度低。 2)阿里在该方面的定位是系统集成商和服务商,运用自身芯片产品搭建加速平台 中,对外输出服务。 3) 百度昆仑芯主要在自身智算集群和服务器上用,以及国内企业、研究所、政 府中使用。且由于百度自身 AI 算法商的商业定位,与其他 AI 厂商之间存在 竞争关系,昆仑芯未必能够在其他 AI 算法商中铺开。

英伟达 A800、H800 对国产厂商存在一定的威胁,但在大模型趋势下,英伟达的优势 有所弱化。过去,机器学习训练时间的主导因素是计算时间,等待矩阵乘法,通过张量核 心和降低浮点精度,这个问题很快被解决。现在大型模型训练/推理中的大部分时间都是在 等待数据到达计算资源。内存带宽和容量的限制不断出现在 Nvidia A100 GPU,如果不进 行大量优化,A100 往往具有非常低的 FLOPS 利用率。而 800 系列降低了数据传输速率, 弱化了英伟达高算力的优势。此外,大模型 AI 芯片更需要片间互联、HBM,英伟达 CUDA 这种标准化平台的优势同样有所弱化。

寒武纪的优势在于各种深度学习框架,合作经验丰富。寒武纪思元系列产品适配 TensorFlow、Pytorch、Caffe 深度学习框架。2019 年开始适配海康,峰值时刻合作开发 团队有 70-80 人(公司派出 20-30 人),思元 290 与商汤在 CV 层面深度合作,NLP 领域 在讯飞、百度语音都有出货。 寒武纪思元590将是最早实现商业应用的接近英伟达A100性能的国产AI训练芯片。 目前华为昇腾 910 性能超越英伟达 V100,但未达到 A100 水平,壁仞科技 7nm 通用 GPU 芯片 BR100 称其可与被禁售的英伟达 H100 一较高下,但尚未量产上市。寒武纪思源 590 芯片面积 800mm^2,和 A100 一样。内存带宽 2.7T,是 A100 1.8T 的 1.5 倍。HBM2 使用海力士,功耗达 350W-550W,FP32 算力到 80TFLops,目前已经客户送样测试阶段, 在高性能国产 AI 芯片中进程最快,最有机会承接国内 AI 算法商对英伟达 A100、H100 的 需求。