中国ASIC芯片格局分析 - 问答集锦

最佳答案由匿名用户编辑于2024/03/14 08:50

寒武纪卡位最优.

算力精度门槛下，ASIC 和 GPGPU 是最适合大模型的架构。大模型云端训练多数情况下都在 FP32 计算精度上，推理端则以 FP16 和混合精度为主。算力越强，模型效率越高。 FPGA 和 GPU 对比，虽然 FPGA 吞吐率、性能功耗比优于 GPU，但是 FPGA 存在两个天然缺陷，FPGA 只适合做定点运算，不适合做浮点运算，如果用来做浮点运算耗费逻辑很大，而且有些 FPGA 不能直接对浮点数进行操作的，只能采用定点数进行数值运算。其二，FPGA 可以理解成某种“芯片半成品”，需要开发人员做大量二次开发设计芯片，因此开发使用门槛较高。ASIC 和 GPU 则能够满足大模型的入门门槛。

国内视角下，华为、百度昆仑芯、阿里、寒武纪、海光信息及一众初创企业（燧原、天数、壁仞、沐曦）均推出云端训练和推理芯片。架构选择上，华为、百度、阿里、寒武纪选择 ASIC 路线。华为、百度、阿里自家业务场景对 AI 芯片存在天然需求，选择 ASIC 在量产制造供应链上的难度显著低于 GPU。初创企业则押注通用型 GPGPU 架构，壁仞、沐曦等初创企业多创立于 2018 年前后，团队一般来自出走英伟达、AMD 的技术专家，因此技术路线多选择他们所熟悉的通用型 GPU。 AI大模型让ASIC 和 GPU之间的边界愈发模糊，国内GPU 初创企业或在竞争中落后。英伟达在过去很长的一段时间内坚持用统一的硬件，即通用型 GPU 同时支持 Deep Learning 和图像需求。但高性能计算迭代到 H100 产品后，其计算卡和图像卡分开，在技术路线上也愈发靠近 ASIC。初创企业为了实现通用性，选择了在芯片设计和制造供应链存在较多困难的 GPU 路线，暂未推出真正具备量产成熟度的产品。

国产 ASIC 厂商中，寒武纪是为数不多能够较为开放支持中游 AI 算法和模型商。 1）华为选择部署端到端的完整生态，例如使用昇腾 910 必须搭配华为的大模型支持框架 MindSpore、盘古大模型。第三方开源模型无法在华为上运行，若要运营必须依赖华为提供的工具做深度定制和优化，开放程度低。 2）阿里在该方面的定位是系统集成商和服务商，运用自身芯片产品搭建加速平台中，对外输出服务。 3）百度昆仑芯主要在自身智算集群和服务器上用，以及国内企业、研究所、政府中使用。且由于百度自身 AI 算法商的商业定位，与其他 AI 厂商之间存在竞争关系，昆仑芯未必能够在其他 AI 算法商中铺开。

英伟达 A800、H800 对国产厂商存在一定的威胁，但在大模型趋势下，英伟达的优势有所弱化。过去，机器学习训练时间的主导因素是计算时间，等待矩阵乘法，通过张量核心和降低浮点精度，这个问题很快被解决。现在大型模型训练/推理中的大部分时间都是在等待数据到达计算资源。内存带宽和容量的限制不断出现在 Nvidia A100 GPU，如果不进行大量优化，A100 往往具有非常低的 FLOPS 利用率。而 800 系列降低了数据传输速率，弱化了英伟达高算力的优势。此外，大模型 AI 芯片更需要片间互联、HBM，英伟达 CUDA 这种标准化平台的优势同样有所弱化。

寒武纪的优势在于各种深度学习框架，合作经验丰富。寒武纪思元系列产品适配 TensorFlow、Pytorch、Caffe 深度学习框架。2019 年开始适配海康，峰值时刻合作开发团队有 70-80 人（公司派出 20-30 人），思元 290 与商汤在 CV 层面深度合作，NLP 领域在讯飞、百度语音都有出货。寒武纪思元590将是最早实现商业应用的接近英伟达A100性能的国产AI训练芯片。目前华为昇腾 910 性能超越英伟达 V100，但未达到 A100 水平，壁仞科技 7nm 通用 GPU 芯片 BR100 称其可与被禁售的英伟达 H100 一较高下，但尚未量产上市。寒武纪思源 590 芯片面积 800mm^2，和 A100 一样。内存带宽 2.7T，是 A100 1.8T 的 1.5 倍。HBM2 使用海力士，功耗达 350W-550W，FP32 算力到 80TFLops，目前已经客户送样测试阶段，在高性能国产 AI 芯片中进程最快，最有机会承接国内 AI 算法商对英伟达 A100、H100 的需求。