GPU概念、架构、发展趋势、出货量及生态体系介绍 - 问答集锦

最佳答案由匿名用户编辑于2025/05/06 13:57

GPU（Graphics Processing Unit）即图形处理单元，是计算机的图形处理及并行计算的核心。

GPU 最初主要应用于加速图形渲染，如 3D 渲染、图像处理和视频解码等，是计算机显卡的核心；随着技术的发展，GPU 也被广泛应用于通用计算领域，如人工智能、深度学习、科学计算、大数据处理等领域，用于通用计算的 GPU 被称为 GPGPU（GeneralPurpose computing on Graphics Processing Units），即通用 GPU。 GPU 与 CPU 在内部架构上有显著差异，决定了它们各自的优势领域。GPU 通过大量简单核心和高带宽内存架构，优化并行计算能力，适合处理大规模数据和高吞吐量任务；CPU 通过少量高性能核心和复杂控制单元优化单线程性能，适合复杂任务和低延迟需求。

GPU 架构由流处理器（SM）、光栅操作单元、纹理单元、专用加速单元等多个关键组件组成，这些组件协同工作，以实现高效的通用计算和图形渲染。GPU 的计算架构由一系列流式多处理器（SM）组成，其中每个 SM 又由多个流式处理器、核心或线程组成，例如， NVIDIA H100 GPU 具有 132 个 SM，每个 SM 拥有 64 个核心，总计核心高达 8448 个；每个 SM 还配备了几个功能单元或其他加速计算单元，例如张量核心（Tensor Core）或光线追踪单元（Ray Tracing Unit），用于满足 GPU 所处理的工作负载的特定计算需求。GPU 具有多层不同类型的内存，每一层都有其特定用途。

GPU 硬件性能可以通过多个参数综合评估，包括核心数量、核心频率、显存容量、显存位宽、显存带宽、显存频率、工艺制程等。GPU 的核心数量越多、核心频率越高，GPU 的计算能力越强。显存容量越大，GPU 能够处理的数据规模就越大；显存带宽越高， GPU 显存与核心之间数据传输的速率越快。GPU 的工艺制程越先进，GPU 性能越好、功耗越低。

GPU 架构对性能影响至关重要，不同架构下的硬件性能参数有所不同。GPU 架构的每次升级在计算能力、图形处理能力、能效比等多方面对性能产生了显著提升，所以 GPU 架构对性能影响至关重要。通过对比英伟达 GeForce 系列 RTX 3090、RTX 4090、RTX 5090，不同 GPU 架构下硬件性能参数有所不同。随着 GPU 架构的升级，GPU 厂商通常会采用更先进的工艺制程，比如英伟达从 8nm 工艺的 Ampere 架构升级到 4nm 工艺的 Blackwell 架构，在相同性能下，新工艺能够降低功耗，或者在相同功耗下提供更高的性能。

多 GPU 互连成为行业发展趋势，以提高系统的计算能力。随着 AI 大模型时代来临，AI 算力需求不断增长，由于单 GPU 芯片算力和内存有限，无法承载大模型的训练任务，通过多种互连技术将多颗 GPU 芯片互连在一起提供大规模的算力，已成为行业发展趋势。对于多 GPU 系统，如何实现 GPU 之间的高速数据传输和协同工作是关键问题。英伟达推出 NVLink、NVSwitch 等互连技术，通过更高的带宽和更低的延迟，为多 GPU 系统提供更高的性能和效率，支持 GPU 之间的高速数据传输和协同工作，提高通信速度，加速计算过程等。 NVLink 用于连接多个 GPU 之间或连接 GPU 与其他设备（如 CPU、内存等）之间的通信，它允许 GPU 之间以点对点方式进行通信，具有比传统的 PCIe 总线更高的带宽和更低的延迟。NVSwitch 实现单服务器中多个 GPU 之间的全连接，允许单个服务器节点中多达 16 个 GPU 实现全互联，每个 GPU 都可以与其他 GPU 直接通信，无需通过 CPU 或其他中介。经过多年演进，NVLink 技术已升级到第 5 代，NVLink 5.0 数据传输速率达到 100GB/s，每个 Blackwell GPU 有 18 个 NVLink 连接，Blackwell GPU 将提供 1.8TB/s 的总带宽，是 PCIe Gen5 总线带宽的 14 倍；NVSwitch 也升级到了第四代，每个 NVSwitch 支持 144 个 NVLink 端口，无阻塞交换容量为 14.4TB/s。

GPU 应用场景广泛，数据中心 GPU 市场快速增长。GPU 最初设计用于图形渲染，但随着其并行计算能力的提升，GPU 的应用场景已经扩展到数据中心、自动驾驶、机器人、区块链与加密货币、科学计算、金融科技、医疗健康等多个领域。近年来数据中心 GPU 市场在全球范围内呈现出快速增长的趋势，尤其是在人工智能、高性能计算和云计算等领域。

GPU 是 AI 服务器算力的基石，有望畅享 AI 算力需求爆发浪潮。GPU 是 AI 服务器算力的基石，随着 AI 算力规模的快速增长将催生更大的 GPU 芯片需求。根据 Statista 的数据， 2023 年全球 GPU 市场规模为 436 亿美元，预计 2029 年市场规模将达到 2742 亿美元，预计 2024-2029 年复合增速达 33.2%。

英伟达主导全球 GPU 市场。根据 TechInsights 的数据，2023 年全球数据中心 GPU 总出货量达到了 385 万颗，相比 2022 年的 267 万颗同比增长 44.2%，其中英伟达数据中心 2023 年 GPU 出货量呈现爆发式增长，总计约 376 万台，英伟达在数据中心 GPU 出货量中占据 98%的市场份额，英伟达还占据全球数据中心 GPU 市场 98% 的收入份额，达到 362 亿美元，是 2022 年 109 亿美元的三倍多。根据 Jon Peddie Research 的数据， 2024 年第四季度全球 PC GPU 出货量达到 7800 万颗，同比增长 0.8%，环比增长 6.2%，其中英特尔、 AMD、英伟达的市场份额分别为 65%、18%、16%。

GPU 生态体系主要由三部分构成，包括底层硬件，中间层 API 接口、算法库、开发工具等，上层应用。以英伟达数据中心平台 GPU 生态体系为例，底层硬件的核心是英伟达的 GPU 产品、用于 GPU 之间高速连接的 NVSwitch 、节点之间互联的各种高速网卡、交换机等，以及基于 GPU 构建的服务器；中间层是软件层面的建设，包括计算相关的 CUDA-X、网络存储及安全相关的 DOCA 和 MAGNUM IO 加速库，以及编译器、调试和优化工具等开发者工具包和基于各种行业的应用框架；上层是开发者基于英伟达提供的软硬件平台能力，所构建的行业应用。

GPU 厂商非常重视软件生态系统的构建，英伟达 CUDA 生态几乎占据通用计算 GPU 领域的全部市场。CUDA 全称为 Compute Unified Device Architecture，即统一计算设备架构，是英伟达推出的基于其 GPU 的通用高性能计算平台和编程模型。目前 CUDA 生态包括编程语言和 API、开发库、分析和调试工具、GPU 加速应用程序、GPU 与 CUDA 架构链接、数据中心工具和集群管理六个部分。编程语言和 API 支持 C、C++、Fortran、Python 等多种高级编程语言；英伟达提供的 CUDA 工具包可用于在 GPU 上开发、优化和部署应用程序，还支持第三方工具链，如 PyCUDA、AltiMesh Hybridizer、OpenACC、OpenCL、Alea - GPU 等，方便开发者从不同的编程接口来使用 CUDA。英伟达在 CUDA 平台上提供了 CUDA-X，它是一系列库、工具和技术的集合，其中包括数学库、并行算法库、图像和视频库、通信库、深度学习库等，同时还支持 OpenCV、FFmpeg 等合作伙伴提供的库。英伟达提供了多种工具来帮助开发者进行性能分析和调试， NVIDIA Nsight 是低开销的性能分析、跟踪和调试工具，提供基于图形用户界面的环境，可在多种英伟达平台上使用；CUDA GDB 是 Linux GDB 的扩展，提供基于控制台的调试接口；CUDA - Memcheck 可用于检查内存访问问题；此外还支持第三方解决方案，如 ARM Forge、TotalView Debugger 等。目前几乎所有的深度学习框架都使用 CUDA/GPU 计算来加速深度学习的训练和推理，英伟达维护了大量经过 GPU 加速的应用程序。在数据中心中，英伟达与生态系统合作伙伴紧密合作，为开发者和运维人员提供软件工具，涵盖 AI 和高性能计算软件生命周期的各个环节，以实现数据中心的轻松部署、管理和运行；例如通过 Mellanox 高速互连技术，可将数千个 GPU 连接起来，构建大规模的计算集群。CUDA 生态系统复杂，建设难度大，CUDA 生态几乎占据通用计算 GPU 领域的全部市场。

GPU 生态体系建立极高的行业壁垒。GPU 一方面有对硬件性能的要求，还需要软件体系进行配套，而 GPU 软件生态系统复杂，建设周期长、难度大。英伟达 CUDA 生态从 2006 年开始建设，经过多年的积累，建立强大的先发优势，英伟达通过与客户进行平台适配、软件开源合作，不断加强客户粘性，GPU 行业新进入者转移客户的难度极大，GPU 生态体系建立极高的行业壁垒。

参考报告

AI 算力芯片行业专题报告：AI算力芯片是“AI时代的引擎”，河南省着力布局.pdf
- 查看报告