云厂商自研芯片加速起量,带动 AI 加速计算芯片市场结构变化。
伴随大型云服务商对 AI 计算需求日益增多,将更加追求 AI 加速芯片的成本效益。微软、谷 歌、亚马逊等越来越多云服务商纷纷加速推理和训练侧自研芯片推出。根据产业链调研, 我们预计 2025 年亚马逊自研芯片出货量增速有望领先,亚马逊近期宣布和 Anthropic 的合 作,未来 Anthropic 将使用一个搭载数十万颗亚马逊自研芯片算力集群,芯片数量达其现有 算力集群五倍以上,将带动亚马逊自研芯片加速放量。云厂商加速自研加速计算芯片大势 所趋,产业链相关公司:生益电子 (688183 CH)、广合科技 (001389 CH)、沪电股份 (002463 CH)、生益科技 (600183 CH)。 CSP 厂商自研加速计算芯片主要基于 ASIC 技术路线,兼具高性能、低功耗等优势。AI 加 速芯片基于不同设计架构存在多条技术路线,目前主要包括 GPU(图形处理单元)、ASIC (专用集成电路)、FPGA(现场可编程门列阵),三者在通用性、灵活性和性能上各具优势。 其中,相较 GPU,ASIC 加速计算芯片针对特定应用场景设计具备高性能和低功耗特点, 其专用性优势更利于云服务商的软件适配,并且伴随 AI 应用需求量快速增长能分摊 ASIC 芯片前期较大研发成本,可同时兼具成本、效率等优势,成为 CSP 厂商自研 AI 加速芯片 主要选择。我们认为,ASIC 定制加速卡以及 GPGPU 会长期并存,ASIC 可以针对特定工 作负载提供性能优化,并从对 NVIDIA 的过度依赖中实现多元化,但 GPGPU 仍将承担云 服务主要工作负载。
Marvell 预计数据中心定制加速计算芯片市场规模有望从 2023 年 66 亿美元增长至 2028 年 429 亿美元,2024-2028 年 CAGR=45%。2022 年 8 月 ChatGPT 发布以来,全球 AI 大 模型发展持续加速,并带动中外科技企业的算力军备竞赛。英伟达作为 AI 算力芯片龙头厂 商,2023 年其数据中心收入达 475 亿美元,较 2022 年(150 亿美元)增长 2 倍以上。英 伟达凭借高性能的的 GPU 产品和高粘性的 CUDA 生态在 AI 算力芯片市场占据主要份额。 但伴随大型云服务商对 AI 计算需求日益增多,将更加追求 AI 加速芯片的成本效益,微软、 谷歌、Meta、亚马逊等越来越多云服务商纷纷加速布局 ASIC 定制化加速卡。Marvell 预计 到 2028 年定制化加速计算芯片市场规模将从 2023 年的 66 亿美金增长至 429 亿美金,对 应 2024-2028 年对应年复合增速为 45%,在 AI 加速芯片市场占比提升至 25%(2023 年占 比为 16%)。

谷歌、亚马逊起步较早,微软、Meta 等亦纷纷入局。追求成本效益,以及摆脱对英伟达的 过度依赖成为 CSP 大厂等科技公司加速自研芯片主要原因。进度上,谷歌、亚马逊布局较 早,态度积极;微软、Meta 起步相对较晚,正加速追赶。目前,谷歌自研 TPU 已广泛应 用于内部推理、训练工作负载,其自研芯片不仅支持自用,同时还支持对外提供 TPU 云服 务。亚马逊自研芯片旨在为客户提供更具性价比、更高能效云服务,包括 Graviton 服务器 CPU,以及 Inferentia 和 Trainium 系列 AI 芯片,目前亚马逊云服务广泛使用自研和外购芯 片。微软首款自研 AI 芯片推出时间相对较晚,OpenAI、Copilot 应用等需求成为微软自研 芯片布局重要驱动力,目前公司云服务同样广泛使用自研和外购芯片。Meta 于 2023 年推 出首款自研 AI 芯片 MTIA,主要用在模型推理,可协助优化 Facebook 和 Instagram 上内容 排名/推荐,数据中心训练仍采用英伟达为主。
谷歌:自研 AI 芯片投入最早,已获苹果等客户认可。新一代产品性能可对标 H100,持续完善软件生态筑强优势。谷歌于 2016 年 Google I/O 大 会上发布第一代 TPU 产品,且 TPUv1 于 2015 年便已在内部开始部署上线,此后,谷歌持 续推进自研 TPU 的迭代更新。2024 年 5 月,公司发布第六代 TPU 产品 Trillium,并计划 于 2024 年下半年开始向其云客户提供相关服务。硬件性能上,谷歌 Trillium 产品,可实现 BF16/INT8 峰值算力 926T/1852T,对标英伟达 2023 年发布的 H100(989T/1978T),产 品代际差距在一代之内。软件生态上,谷歌 AI 生态系统包含多种开发工具和框架,如 TensoFlow、TPU Estimator 和 Keras 等。其中,TensorFlow 为谷歌开源深度学习框架, 提供高级编程接口和工具集,可助力开发者更轻松地利用 TPU 芯片性能优势,并加速其应 用的部署和执行。 广泛应用于内部推理/训练工作负载,且获苹果等客户认可。自 2015 年首次部署 TPU 以来, 谷歌内部推理/训练工作逐步转至由自研 TPU 承担。公司 Gemini 模型便完全基于其第四代 和第五代 TPU 训练,同时,Imagen 3、Gemma 2 等亦均经由 TPU 训练并提供服务。此次 外,谷歌基于 TPU 的云服务也得到越来越多客户使用认可。谷歌发布 Trillium TPU 的同时, 表示包括自动驾驶汽车公司 Nuro、药企 Deep Genomics 以及德勤等均将采用该 TPU 相关 服务。2024 年 7 月,苹果发布论文称其使用 2048 片 TPUv5p 芯片用以训练 27.3 亿参数的 设备端模型 AFM-on-device,以及使用 8192 片 TPUv4 芯片用以训练其为私有云量身定制 的大型云端模型 AFM-server。
亚马逊:自研 CPU 持续迭代,Anthropic 等合作助力 AI 芯片快速起量。自研 CPU 已迭代至第四代,累计出货超 200 万颗。2018 年,亚马逊发布第一款基于 ARM 架构的自研 CPU,并持续推进自研 CPU 迭代升级,2018 年至 2023 年 5 年期间,亚马逊 自研 CPU Graviton 系列已迭代至第四代。其中,2023 年发布的 Graviton4 内核采用业内 领先的 Neoverse V2 架构,核心数达 96 个,相较上一代产品综合性能提升 30%,内存带 宽提升 75%。相较 x86 架构 CPU,基于 ARM 架构的 Graviton 系列兼具更低功耗和更优成 本优势。SAP 通过使用 Graviton 服务,实现 35%成本降低以及 45%的碳排放量减少。截 止 2023 年,亚马逊科技已拥有超 150 种基于 Graviton 计算实例,全球超 5 万家企业和开 发者进行使用,Graviton 累计交付超 200 万颗。
AI 推理/训练芯片同时布局,Anthropic 等深度合作加速起量。亚马逊 AI 芯片包含推理 Inferentia 和训练 Trainium 两个系列,其中,2023 年发布的 Trainium2 可实现 FP16/INT8 峰值算力 431T/861T,超过英伟达 A100(312T/614T),较 H100(989T/1978T)仍有一 定差距。2024 年 Re:Invent 大会,亚马逊发布其新一代人自研 AI 芯片 Trainium 3,采用 3nm 工艺,性能 Trainium 2 高 2 倍以上,且能效比提升约 40%,公司预计将于 2025 年底 上市,将进一步缩小与英伟达最先进产品差距。公司与 Anthropic 等 AI 初创公司深度合作 加速 AI 芯片放量,2024 年 12 月,Anthropic 宣布未来将使用一个搭载数十万颗亚马逊自 研芯片算力集群,芯片数量达其现有算力集群五倍以上,此外,此前 Databricks 亦与亚马 逊签订协议承诺将使用 Trainium 芯片。
微软:自研 AI 芯片较晚起步,率先支持内部AI 应用。2023 年微软推出 Maia100 和 Cobalt 100 两款自研芯片,其中,Maia100 AI 芯片为公司第 一款自研 AI 芯片,其 MXint8/MXFP4 算力分别达 1600T/3200T,据 Semianalysis,Maia100 性能可接近英伟达 H100 和 AMD MI300X 水平,内存带宽仅为 1.6TB/s,较 H100 和 MI300X 仍有一定差距。Maia100 已在微软搜索引擎 Bing、Office AI 产品上进行测试,此外,OpenAI 亦率先进行试用,用于 GPT-3.5 Turbo 上测试。Cobalt100 为基于微软推出的第二代 ARM 架构 CPU,采用 Neoverse N2 内核,整体性能相较上一代 Azure 芯片提升了 40%,公司 表示 Cobalt100 已在部分 Teams、Azure 通信服务和 Azure SQL 服务中搭载使用。