云厂商AI芯片布局进展如何？ - 问答集锦

最佳答案由匿名用户编辑于2025/01/13 13:06

云厂商自研芯片加速起量，带动 AI 加速计算芯片市场结构变化。

伴随大型云服务商对 AI 计算需求日益增多，将更加追求 AI 加速芯片的成本效益。微软、谷歌、亚马逊等越来越多云服务商纷纷加速推理和训练侧自研芯片推出。根据产业链调研，我们预计 2025 年亚马逊自研芯片出货量增速有望领先，亚马逊近期宣布和 Anthropic 的合作，未来 Anthropic 将使用一个搭载数十万颗亚马逊自研芯片算力集群，芯片数量达其现有算力集群五倍以上，将带动亚马逊自研芯片加速放量。云厂商加速自研加速计算芯片大势所趋，产业链相关公司：生益电子 (688183 CH)、广合科技 (001389 CH)、沪电股份 (002463 CH)、生益科技 (600183 CH)。 CSP 厂商自研加速计算芯片主要基于 ASIC 技术路线，兼具高性能、低功耗等优势。AI 加速芯片基于不同设计架构存在多条技术路线，目前主要包括 GPU（图形处理单元）、ASIC （专用集成电路）、FPGA（现场可编程门列阵），三者在通用性、灵活性和性能上各具优势。其中，相较 GPU，ASIC 加速计算芯片针对特定应用场景设计具备高性能和低功耗特点，其专用性优势更利于云服务商的软件适配，并且伴随 AI 应用需求量快速增长能分摊 ASIC 芯片前期较大研发成本，可同时兼具成本、效率等优势，成为 CSP 厂商自研 AI 加速芯片主要选择。我们认为，ASIC 定制加速卡以及 GPGPU 会长期并存，ASIC 可以针对特定工作负载提供性能优化，并从对 NVIDIA 的过度依赖中实现多元化，但 GPGPU 仍将承担云服务主要工作负载。

Marvell 预计数据中心定制加速计算芯片市场规模有望从 2023 年 66 亿美元增长至 2028 年 429 亿美元，2024-2028 年 CAGR=45%。2022 年 8 月 ChatGPT 发布以来，全球 AI 大模型发展持续加速，并带动中外科技企业的算力军备竞赛。英伟达作为 AI 算力芯片龙头厂商，2023 年其数据中心收入达 475 亿美元，较 2022 年（150 亿美元）增长 2 倍以上。英伟达凭借高性能的的 GPU 产品和高粘性的 CUDA 生态在 AI 算力芯片市场占据主要份额。但伴随大型云服务商对 AI 计算需求日益增多，将更加追求 AI 加速芯片的成本效益，微软、谷歌、Meta、亚马逊等越来越多云服务商纷纷加速布局 ASIC 定制化加速卡。Marvell 预计到 2028 年定制化加速计算芯片市场规模将从 2023 年的 66 亿美金增长至 429 亿美金，对应 2024-2028 年对应年复合增速为 45%，在 AI 加速芯片市场占比提升至 25%（2023 年占比为 16%）。

谷歌、亚马逊起步较早，微软、Meta 等亦纷纷入局。追求成本效益，以及摆脱对英伟达的过度依赖成为 CSP 大厂等科技公司加速自研芯片主要原因。进度上，谷歌、亚马逊布局较早，态度积极；微软、Meta 起步相对较晚，正加速追赶。目前，谷歌自研 TPU 已广泛应用于内部推理、训练工作负载，其自研芯片不仅支持自用，同时还支持对外提供 TPU 云服务。亚马逊自研芯片旨在为客户提供更具性价比、更高能效云服务，包括 Graviton 服务器 CPU，以及 Inferentia 和 Trainium 系列 AI 芯片，目前亚马逊云服务广泛使用自研和外购芯片。微软首款自研 AI 芯片推出时间相对较晚，OpenAI、Copilot 应用等需求成为微软自研芯片布局重要驱动力，目前公司云服务同样广泛使用自研和外购芯片。Meta 于 2023 年推出首款自研 AI 芯片 MTIA，主要用在模型推理，可协助优化 Facebook 和 Instagram 上内容排名/推荐，数据中心训练仍采用英伟达为主。

谷歌：自研 AI 芯片投入最早，已获苹果等客户认可。新一代产品性能可对标 H100，持续完善软件生态筑强优势。谷歌于 2016 年 Google I/O 大会上发布第一代 TPU 产品，且 TPUv1 于 2015 年便已在内部开始部署上线，此后，谷歌持续推进自研 TPU 的迭代更新。2024 年 5 月，公司发布第六代 TPU 产品 Trillium，并计划于 2024 年下半年开始向其云客户提供相关服务。硬件性能上，谷歌 Trillium 产品，可实现 BF16/INT8 峰值算力 926T/1852T，对标英伟达 2023 年发布的 H100（989T/1978T），产品代际差距在一代之内。软件生态上，谷歌 AI 生态系统包含多种开发工具和框架，如 TensoFlow、TPU Estimator 和 Keras 等。其中，TensorFlow 为谷歌开源深度学习框架，提供高级编程接口和工具集，可助力开发者更轻松地利用 TPU 芯片性能优势，并加速其应用的部署和执行。广泛应用于内部推理/训练工作负载，且获苹果等客户认可。自 2015 年首次部署 TPU 以来，谷歌内部推理/训练工作逐步转至由自研 TPU 承担。公司 Gemini 模型便完全基于其第四代和第五代 TPU 训练，同时，Imagen 3、Gemma 2 等亦均经由 TPU 训练并提供服务。此次外，谷歌基于 TPU 的云服务也得到越来越多客户使用认可。谷歌发布 Trillium TPU 的同时，表示包括自动驾驶汽车公司 Nuro、药企 Deep Genomics 以及德勤等均将采用该 TPU 相关服务。2024 年 7 月，苹果发布论文称其使用 2048 片 TPUv5p 芯片用以训练 27.3 亿参数的设备端模型 AFM-on-device，以及使用 8192 片 TPUv4 芯片用以训练其为私有云量身定制的大型云端模型 AFM-server。

亚马逊：自研 CPU 持续迭代，Anthropic 等合作助力 AI 芯片快速起量。自研 CPU 已迭代至第四代，累计出货超 200 万颗。2018 年，亚马逊发布第一款基于 ARM 架构的自研 CPU，并持续推进自研 CPU 迭代升级，2018 年至 2023 年 5 年期间，亚马逊自研 CPU Graviton 系列已迭代至第四代。其中，2023 年发布的 Graviton4 内核采用业内领先的 Neoverse V2 架构，核心数达 96 个，相较上一代产品综合性能提升 30%，内存带宽提升 75%。相较 x86 架构 CPU，基于 ARM 架构的 Graviton 系列兼具更低功耗和更优成本优势。SAP 通过使用 Graviton 服务，实现 35%成本降低以及 45%的碳排放量减少。截止 2023 年，亚马逊科技已拥有超 150 种基于 Graviton 计算实例，全球超 5 万家企业和开发者进行使用，Graviton 累计交付超 200 万颗。

AI 推理/训练芯片同时布局，Anthropic 等深度合作加速起量。亚马逊 AI 芯片包含推理 Inferentia 和训练 Trainium 两个系列，其中，2023 年发布的 Trainium2 可实现 FP16/INT8 峰值算力 431T/861T，超过英伟达 A100（312T/614T），较 H100（989T/1978T）仍有一定差距。2024 年 Re:Invent 大会，亚马逊发布其新一代人自研 AI 芯片 Trainium 3，采用 3nm 工艺，性能 Trainium 2 高 2 倍以上，且能效比提升约 40%，公司预计将于 2025 年底上市，将进一步缩小与英伟达最先进产品差距。公司与 Anthropic 等 AI 初创公司深度合作加速 AI 芯片放量，2024 年 12 月，Anthropic 宣布未来将使用一个搭载数十万颗亚马逊自研芯片算力集群，芯片数量达其现有算力集群五倍以上，此外，此前 Databricks 亦与亚马逊签订协议承诺将使用 Trainium 芯片。

微软：自研 AI 芯片较晚起步，率先支持内部AI 应用。2023 年微软推出 Maia100 和 Cobalt 100 两款自研芯片，其中，Maia100 AI 芯片为公司第一款自研 AI 芯片，其 MXint8/MXFP4 算力分别达 1600T/3200T，据 Semianalysis，Maia100 性能可接近英伟达 H100 和 AMD MI300X 水平，内存带宽仅为 1.6TB/s，较 H100 和 MI300X 仍有一定差距。Maia100 已在微软搜索引擎 Bing、Office AI 产品上进行测试，此外，OpenAI 亦率先进行试用，用于 GPT-3.5 Turbo 上测试。Cobalt100 为基于微软推出的第二代 ARM 架构 CPU，采用 Neoverse N2 内核，整体性能相较上一代 Azure 芯片提升了 40%，公司表示 Cobalt100 已在部分 Teams、Azure 通信服务和 Azure SQL 服务中搭载使用。

参考报告

电子行业年度策略：AI引领创新，自主可控持续.pdf
- 查看报告