2025年海光信息研究报告:国产CPU和DCU双领军,信创+AI驱动高速成长

1. 海光信息:国产 CPU 和 DCU 双领军企业

1.1 基于 AMD 技术授权,CPU 和 DCU 持续迭代

海光信息成立于 2014 年,2016 年获得 AMD 技术授权启动CPU 产品研发,通过持续推进高端处理器产品的迭代升级,成长为国内 CPU 和 DCU 双领军企业。2014 年海光信息成立,成立后不久,公司获得中科曙光、国科控股等参投的天使轮融资。2016 年,公司与AMD合资成立海光集成和海光微电子两家子公司,并分别于 2016 年和2017 年与AMD签署《技术许可协议》,约定 AMD 为两家合资公司提供高端处理器技术授权和技术支持,包括处理器核心和外围电路设计技术以及内置到处理器中驱动处理器硬件执行的微码系统等。基于AMD的授权技术和海光的自研能力,2016 年以来公司秉承“销售一代、验证一代、研发一代”的策略,持续进行海光系列 CPU 和深算系列 DCU 产品的迭代,目前公司已发展成为国内CPU和DCU领域的领导者。

海光信息的主营产品分为通用处理器(CPU)和协处理器(DCU)两类。其中:1)海光CPU 兼容国际主流的 x86 技术路线,具有丰富的软硬件生态优势,其核心组成包括处理器核心(Core)、片上网络和各类接口控制器,同时集成了复杂的微码系统。海光CPU按照代际进行升级迭代,目前已从海光一号迭代至海光四号,而每代际产品基于不同的产品定位,可细分为高端的 7000、中端的 5000 和低端的 3000 系列,其中 7000 系列面向对计算能力、扩展能力、吞吐量有高要求的领域,包括大数据、人工智能等,3000 系列主要应用于入门级服务器、工作站、工业控制等市场,5000 系列面向边缘计算、云计算、分布式存储等应用场景。2)海光DCU 属于 GPGPU 的一种,采用“类 CUDA”通用并行计算架构,能够较好地适配国际主流商业计算软件和人工智能软件。从组成上看,计算单元是 DCU 的最主要部件,以深算一号为例,其最大集成 64 个计算单元。目前公司 DCU 产品包括深算一号和深算二号,主要部署在服务器集群或数据中心,支撑高复杂度和高吞吐量的数据处理任务。

1.2 管理层及研发团队具备中科系及 AMD 等芯片大厂背景

中科曙光是海光信息第一大股东,同时公司通过海光微电子和海光集成两家子公司持有AMD 技术授权。目前公司无控股股东和实控人,前两大股东分别为中科曙光和成都国资(含成都产投有限、成都高投有限及成都集萃有限,系一致行动人),截至2024 年12 月31日,两大股东分别持股27.96%和17%。在参控股子公司中,海光微电子和海光集成是海光信息与AMD的合资公司,其中,海光微电子(海光持股 49%、AMD 持股51%)受让和使用AMD授权的x86 处理器核相关技术,负责研发海光处理器核,并销售半成品给海光集成;海光集成(海光持股 70%、AMD 持股 30%)受让和使用 AMD 授权的 x86 处理器外围相关技术,负责研发海光处理器外围相关技术,并对外销售海光处理器成品。

公司核心管理层大多具有中科系企业任职经历,其中董事长孟宪棠曾任国科控股副总经理,总经理沙超群曾任中科曙光高级副总裁,而公司核心技术骨干拥有AMD、英特尔等芯片大厂的任职背景。公司董事长孟宪棠毕业于香港科技大学获工商管理硕士学位,曾任国科控股(中科院控股有限公司)副总经理,并曾兼任中科可控和中科院资本管理有限公司董事;公司总经理沙超群毕业于北京理工大学获工学硕士学位,曾在中科曙光分管产品技术。公司核心技术骨干多拥有 AMD、英特尔等国内外知名芯片公司的就职背景,并拥有成功研发x86和ARM处理器的经验。公司高度重视研发技术人才,截至 2024 年 12 月31 日,研发人员共有2157人,占公司总人数的 90.18%,同时,为锁住核心技术人才,公司设立蓝海轻舟员工持股平台,目前持股比例为 6.09%。

1.3 核心产品放量推动营业收入和利润率持续提升

国产处理器需求增加叠加产品结构多元化,推动公司营业收入保持高速成长。近6年公司营收复合增长率高达 89.1%,2024 年公司实现营收 91.6 亿元,同比增长52.4%,主要原因在于国产处理器需求旺盛,同时公司快速丰富产品线,推动产品结构多样化发展,并且持续加大市场开发力度,不断拓展新客户。根据应用场景划分,2019 年7000 系列高端CPU处理器占据公司 86%的营收,3000 系列低端 CPU 和 5000 系列中端 CPU 分别占据13%和1%的营收,而到了 2021 年,7000 系列 CPU 营收占比降至 65%,3000 和5000 系列营收占比分别提升至16%和 8%,此外,8000 系列 DCU 自 2021 年上半年开始量产,并快速在多个行业进行试用推广,当年就贡献了 10%的营收。根据产品代际划分,自 2018 年海光一号实现商业化应用,2020-2023 年海光二号、深算一号、海光三号、深算二号陆续实现量产,持续满足客户需求,促进公司收入保持快速增长。

芯片研发规模效应叠加新产品持续迭代,公司毛利率持续提升。2019-2024 年,除2022年因封装测试成本上升导致毛利率小幅下降,公司毛利率整体保持稳步增长态势,从37.3%提升至 63.7%,主要原因在于,一方面,随着公司业务规模增长,规模效应显现,促使公司自研无形资产摊销金额占营收比重下降,另一方面公司持续进行产品迭代升级,而新一代际的产品毛利率通常高于上一代际,新一代产品快速放量推动公司整体毛利率提升。

公司费用率呈下降趋势,盈利能力持续改善。2019 年以来,随着公司业务规模保持高速增长,同时运营效率持续提升,公司费用率呈下降趋势,销售、管理、研发费用率分别从2019年的 6.58%、14.28%、46.27%下降至 2024 年的 1.92%、1.55%、31.76%。在研发投入方面,尽管研发费用率有所下降,但公司仍高度重视高端处理器核心技术的研发,保持高强度的研发投入,2024 年研发投入金额达 34.5 亿元,同比增长 22.63%,占营收比重达37.61%。随着收入端和费用端持续改善,2019 年以来公司归母净利润保持稳健增长,2021 年实现扭亏为盈,2024年公司实现归母净利润 19.3 亿元,同比增长 52.9%,同时公司净利率也从2019 年-36.2%快速提升至 2024 年 29.7%。

2. CPU:产品性能和生态优势显著,信创加速推动国产化率持续提升

2.1 国内 CPU 市场达千亿规模,国产化替代空间广阔

CPU(中央处理器)是计算机系统的运算和控制中心,随着技术的不断进步,CPU不断在性能上实现提升,包括更高的主频、更多的核心数以及更强的并行处理能力。CPU主要由运算器(ALU)、控制器(CU)、寄存器(Register)构成。其中,运算器负责根据控制器的命令执行计算机的加减乘等算术运算、与或非和异或等逻辑运算以及移位、比较、传送等操作,控制器负责协调和控制计算机执行协调和控制机计算机各组件执行程序的指令序列,包括取指令、分析指令和执行指令,而寄存器负责存储运算器计算过程中产生的临时数据,包括向量寄存器、指令寄存器、地址寄存器、通用目的寄存器等。

CPU 根据指令集可分为复杂指令集(CISC)和精简指令集(RISC)两大类,其中,复杂指令集以 x86 架构为主,精简指令集以 ARM 架构为主,此外还包括MIPS、RISC-V等架构。1)x86 架构具有指令系统庞大、指令长度可变、功能复杂、寻址方式灵活的特点,并且在 Wintel 联盟的长期推动下,x86 架构的应用软件生态及开发工具成熟度非常高。目前x86架构仍占据在服务器和桌面 CPU 芯片的主要份额,x86 阵营的芯片厂商包括海外的英特尔、AMD以及国内的海光和兆芯;2)ARM 架构具有低功耗、结构简单、指令执行效率高的优点,在软件生态、寻址灵活性、指令丰富度上弱于 x86 架构。ARM 架构与安卓操作系统形成了AA体系,在移动端设备以及工控系统、大型机等特定场景下应用广泛。目前ARM阵营的主要芯片厂商包括海外的高通、三星、苹果以及国内的飞腾、鲲鹏等。

CPU 根据应用领域主要可分为服务器 CPU 和桌面 CPU,二者在内核数量、缓存设计、主板配置等方面存在较大差异。其中,1)内核数量:为满足高性能计算要求,服务器CPU通常在单块 CPU 中封装更多物理内核,以英特尔 CPU 为例,至强系列服务器CPU目前最多可拥有 196 核,而酷睿系列桌面 CPU 的内核最多达 24 个;2)缓存设计:服务器CPU普遍采用三级缓存设计,且高速缓存容量明显更大,以英特尔 CPU 为例,至强CPU高速缓存容量可达504MB,而酷睿 CPU 的高速缓存容量仅为 5-36MB;3)主板配置:服务器CPU配备的主板大多拥有多个 CPU 卡槽,可通过多路互联技术同时运行多个 CPU,而桌面CPU通常仅安装一个CPU,同时,专为高性能计算设计的服务器 CPU 自带的核心显卡即可满足需求,而部分桌面CPU 主板拥有显卡卡槽以放置独立显卡,满足日常游戏、图像处理等需求。

服务器 CPU 市场规模测算:基于 IDC 对国内服务器出货量等数据统计,我们测算2023年国内市场规模约为 539 亿元。其中: 1)国内服务器出货量测算:根据 IDC 数据,2023 年中国服务器出货量约449 万台,其中x86 服务器出货量为 362 万台,占比达 81%,并呈逐年下降趋势。同时,IDC预测24-25年国内 x86 服务器出货量将分别增长 5.7%和 5.5%,即 2025 年国内x86 服务器将出货约404万台。假设 24-25 年 x86 服务器出货量占比逐年下降,分别为 77%和73%,则2025 年国内服务器出货量将达到 553 万台; 2)单台服务器包含的 CPU 数量测算:根据海光招股说明书引IDC 数据,国内服务器以双路为主,2016-2020 年双路服务器占比从 80.0%持续提升至88.8%,2020 年单路、四路、八路及以上服务器分别占比 6.6%、4.5%、0.1%,我们假设平均每台服务器包含的CPU数量稳定在 2 块; 3)服务器 CPU 单价测算:基于海光招股说明书数据,2019-2021 年海光CPU平均单价分别为 4340、4400、3668 元,其中 21 年均价有所下滑主要是因为低端的3000 系列出货量大幅提升,而 3000 系列部分应用于工作站等非服务器场景。而根据Mercury Research 数据可计算得出,英特尔在 23Q3 和 24Q3 的服务器 CPU 平均单价分别为1003 美元(约7198元)和858美元(约 6160 元),AMD 在 23Q3 和 24Q3 的服务器 CPU 平均单价分别为1227 美元(约8810元)和 1295 美元(约 9295 元)。参考以上数据,同时考虑到海外巨头的服务器CPU产品单价一般更高,假设国内市场 CPU 平均单价稳定在 6000 元左右。

桌面 CPU 市场规模:目前英特尔和 AMD 在中国大陆的桌面CPU 业务合计收入规模约636 亿元,同时国产厂商在桌面 CPU 市场的收入规模仍然较小,未来具备较大的替代空间。1)英特尔桌面 CPU 业务:CCG(PC 客户端)部门收入可代表桌面CPU业务收入,2024年英特尔 CCG 部门收入为 303 亿美元,折合人民币约 2174 亿元,以中国区收入占比29%计算,2024 年英特尔桌面 CPU 中国区收入为 88 亿美元(约 632 亿人民币);2)AMD 桌面 CPU 业务:客户端收入可代表桌面 CPU 业务收入,2023 年AMD客户端收入为 47 亿美元,折合人民币约 329 亿元,以中国区收入占比23%计算,2023 年AMD桌面CPU 中国区收入为 11 亿美元(约 76 亿人民币)。英特尔和 AMD 在国内桌面CPU市场的合计收入规模约 636 亿人民币,提供了广阔的国产化替代空间。

2.2 公司 CPU 性能领跑国内市场,x86 架构生态优势显著

目前国产 CPU 市场有海光、兆芯、鲲鹏、飞腾、龙芯、申威六大主流厂商,根据指令集架构可分为 x86、ARM、自研指令集三大阵营,综合产品性能及市场份额来看,海光和鲲鹏处于第一梯队,其次为飞腾、兆芯、龙芯、申威。 1)x86(海光、兆芯):海光、兆芯通过合资、收购等方式获得x86 技术授权,并基于引进的技术完成早期产品的研发,此后逐步进行技术吸收,并在后续产品迭代中实现自研。其中,海光基于 AMD Zen1 架构研发的初代产品便具备代际领先性,随后持续重度投入研发,产品性能保持国内领先; 2)ARM(鲲鹏、飞腾):鲲鹏、飞腾从 ARM 公司买断其ARMv8 指令集架构永久授权,并自行定制 CPU 内核和芯片,依托华为和中国电子,鲲鹏和飞腾CPU 具备一定的生态基础,但由于无法获得更新的 ARM v9 授权,并且 ARM 禁止厂商随意私自修改指令集,在自主可控方面存在隐患。其中,鲲鹏依托华为强大的技术研发能力,在产品性能上处于领先,而飞腾的PKS 路线具有明显的安全优势; 3)自研指令集(龙芯、申威):龙芯、申威基于 MIPS、Alpha 等指令集架构,推出了自主研发的 LoongArch、SW64 等架构,在国产厂商中自主可控程度较高,但生态成熟度较低。其中,目前申威 CPU 已实现完全自主可控,但比较小众,主要应用于超算领域,而龙芯中科部分模块仍需依赖 MIPS 架构,公司在生态建设上已有积累,目前国内主流的办公软件都完成了 LoongArch 的适配,同时 LoongArch 通过软硬件结合的二进制翻译方式实现了部分兼容x86。相比于主要竞争对手鲲鹏和兆芯,海光在产品性能和应用生态上具备优势。1)与鲲鹏相比,海光 CPU 采用 x86 架构,而在 Wintel 联盟的推动下,全球绝大多数应用软件均兼容x86架构,并且在操作系统方面,除 Windows 外,Linux 同样兼容x86 架构,因此使用海光的CPU能够实现上层系统软件、应用软件等的无缝切换,具备显著的生态优势;2)与同属于x86阵营的兆芯相比,海光的产品性能更优,海光 CPU 脱胎于当时国际领先的AMDZen1架构,随后公司快速消化吸收授权技术并持续自研,同时主动扩展安全算法指令,内置密码计算等多种安全技术,实现领先的芯片安全防护能力,而兆芯的 x86 CPU 由于旧版专利授权限制以及VIA微架构先进性不足,产品性能提升相对较慢。

2016 年,海光通过合资子公司海光微电子和海光集成获得AMD x86 指令集架构和Zen1架构源代码授权。2016 年海光与 AMD 成立海光微电子和海光集成两家子公司,分别负责CPU核的研发以及 CPU 外围技术的研发和 CPU 成品的对外销售,并签署《技术许可协议》,根据协议,AMD 需要向合资公司提供 x86 芯片永久技术授权及必要的技术支持,而公司生产的芯片仅面向国内市场销售。为此,AMD 获得了价值 2.93 亿美元的授权费。

公司基于 Zen1 架构研发了海光一号,产品性能在当时的国产CPU中处于领先,并且与国际领先产品的性能差距控制在 10%以内。AMD 基于 Zen1 微架构推出的服务器CPU霄龙7001 系列较当时国内主流产品具有代际领先性,根据 SPEC 2017 测试结果,AMD霄龙7001系列中 7551 的整型得分可达 295,浮点得分可达 268,对标英特尔同期的至强E5 v4系列产品。海光基于 AMD Zen1 架构研发的海光一号性能基本达到 AMD 同代产品霄龙7001 系列技术指标,其中与 AMD 霄龙 7551 相似型号的海光 7185 在 SPEC 2017 测试集上的整型得分为281,浮点得分为 251,与 AMD 产品的性能差距在 5%-7%,同时海光一号在国产CPU中保持领先,当时国内主流的飞腾 FT-2000+/64 等 CPU 基本对标 2014 年英特尔至强E5 v3 系列的水平,与国际领先产品存在 3 年左右的差距。 海光充分消化吸收 AMD 的 x86 技术和 Zen1 微架构,继海光一号之后通过自研不断优化微体系结构,快速推出海光二号和海光三号,产品性能紧跟 AMD 同代产品,并持续领跑国产CPU 市场,同时海光四号和五号也已启动研发。随着海光快速消化AMD的x86 技术和Zen1微架构,公司基于自身产品策略,对 CPU 微架构进行重点优化。2017 年公司在海光一号基础上对 Core 微结构进行优化,提升处理器核心性能和安全性能,研发了海光二号。根据SPECCPU测试结果,海光二号性能较上代产品提升了 22.71%-24.24%,并且与采用Zen2 架构的AMD霄龙 7542 差距在 12.99%-18.30%,同时在国产品牌中处于领先,海光二号7285 的SPEC测试整型得分为 348,高于当时主要竞品鲲鹏 920 7260 318 的整型得分。公司的海光三号进一步对CPU 核心和片上网络微结构进行优化,包括优化取指单元中的分支预测器,实现更精确的分支预测算法和更高的预测带宽;优化内存控制器,将内存频率从2667MHz 提升到3200MHz。海光三号性能进一步提升,旗舰型号 7390 的 CPU 核心数量达32 个,线程数量为64个,主频达 2.7GHz,并配有 8 个 DDR4 内存,综合性能继续领跑包括鲲鹏、飞腾在内的国产品牌。同时,海光四号和海光五号也分别于 2019 和 2022 年启动研发,目前进展顺利。

2.3 行业信创将进入第二阶段,CPU 国产化率有望加速提升

信创产业开始由党政向全行业覆盖发展,在替换系统上开始由外围系统向核心系统深化。2019 年开始,信创迎来第一轮建设期,围绕党政领域,旨在全面替换省市级及以上级别政府机关的电子公文系统,同时金融、电信、电力等关键行业开启信创试点。第一轮党政信创的产品供应商选择主要参考信创目录,其中在 CPU 领域,龙芯、海光、飞腾、鲲鹏、兆芯、申威均已进入信创名录。2022 年是信创产业承上启下的一年,市级以上党政机关的电子公文系统实现全面替换,并开始向电子政务系统延伸以及向区县级市场下沉,同时金融、电信等关键行业的信创也开始从局部试点向全面落地发展,信创产业逐渐步入第二轮建设期。在第二轮建设期,信创需求方在采购时将会更多考虑产品的性能和易用性。

2024 年以来,随着财政政策持续落地,对信创产业的资金支持力度有望持续加强,同时,考虑到当前临近行业信创中期节点,我们认为 2025 年信创有望加速落地。2024 年5月,财政部发布超长期特别国债发行的有关安排,从发行时间看,本次特别国债将从去年5 月中旬持续发行到 11 月中旬,从投向领域看,本次特别国债发行强调科技自立自强,将适度超前部署数字基础设施体系,旨在推动关键核心技术的突破和产业升级。而在2024 年6 月,财政部联合国家发改委、中国人民银行等发布了《关于实施设备更新贷款财政贴息政策的通知》,旨在通过财政贴息降低企业融资成本,促进企业进行设备更新,能够在一定程度上加快设备国产化替代进程,该政策的实施期限将持续到 2024 年年底。我们认为,随着本次超长期特别国债的持续发行以及贷款财政贴息政策的落地,信创资金支持力度增强,信创产业发展开始提速。同时临近 2027 年这一信创关键节点,考虑到此前的信创建设进度,我们认为未来信创大概率将加速。

CPU 是信创的关键领域,海光有望凭借产品性能和生态优势成为本轮信创CPU厂商的核心受益者。由于上一轮信创采用基于信创名录的采购模式,下游政企用户的信创采购更侧重于安全合规需求,因此党政信创对进入名录的供应商收入及业绩均有较大幅度的拉动,包括海光、龙芯、鲲鹏、飞腾等六大 CPU 厂商均有不同程度受益。而进入行业信创后,行业用户更看重产品的性能和生态,信创采购更加市场化,因此,我们认为,在本轮信创中具备产品性能和生态优势的厂商将更加受益,而海光作为国内 CPU 龙头厂商,具备强大的产品和生态优势,有望成为本轮信创的核心受益者。

3. DCU:AI 芯片跻身国内第一梯队,充分受益国产AI 算力产业浪潮

3.1 互联网及智算中心持续加大 AI 投入,AI 芯片国产化进程持续加速

AI 浪潮下国内下游互联网和智算中心的算力需求持续旺盛,将推动国内AI 芯片市场保持快速增长。1)互联网:23Q2 开始国内互联网大厂积极布局大模型赛道,加速AI 算力投入。考虑到 AI 对于国内互联网头部厂商而言,无论是赋能自身业务来提升竞争力还是服务下游客户来提高收入规模,都具备重要意义,因此未来互联网厂商 AI 相关资本开支仍将持续提升。在芯片选择方面,H20 预计仍将占据较高份额,而昇腾 910B 等国产芯片的份额也将持续提升;2)智算中心:10 月以来国内智算中心建设正全面提速,众多智算中心项目陆续进入交付阶段,同时新启动的智算中心项目的规划算力规模以及投资金额等均呈增长趋势。智算中心建设的参与方众多,格局较为分散,国内主流算力芯片均有望占据智算中心市场一定份额。

随着美国芯片出口管制政策持续加码,英伟达主力 AI 芯片出口中国大陆受限,AI 芯片的国产化进程有望加速推进。近年来美国不断加码对于高性能AI 芯片的出口管制:1)2022年10 月更新出口管理条例,提出总处理性能(TPP)和 I/O 带宽传输速率两大判断指标,禁止TPP 不小于 4800 且 I/O 带宽不小于 600GB/s 的 AI 芯片向中国等地区出口,导致英伟达A100、H100 等高端芯片出口受限;2)2023 年 10 月美国商务部再次更新出口管理条例,新增性能密度(PD)指标,并设置 1.6、3.2 和 5.92 三个门槛,A800、H800、RTX4090 等芯片进入出口管制名单;3)2024 年美国政府再次对出口管制条例进行修订,将管制范围从AI 芯片扩大到所有搭载 AI 芯片的电子设备。国内互联网大厂等下游客户为防止出现芯片断供风险,正逐步转向采购国产芯片或自研 AI 芯片,将推动 AI 芯片国产化率快速提升。

3.2 从超算到智算,深算三号有望进入国内AI 芯片第一梯队

目前国产 AI 芯片厂商可分为三个梯队,第一梯队厂商包括华为昇腾、海光信息、寒武纪、百度昆仑芯等。1)第一梯队:代表厂商为华为昇腾、海光信息、寒武纪、百度昆仑芯,第一梯队厂商成立时间较早,已迭代了 2-3 代产品,具备较强的软硬件能力积累,在产品性能和量产规模方面保持领先,其中,华为昇腾 910B 已经基本对标英伟达A100,成为互联网厂商国产训练芯片的首选,而海光信息、寒武纪、昆仑芯等的新一代主力产品深算三号、思元590、昆仑芯三代等未来也将成为昇腾 910B 的有力竞争者;2)第二梯队:包括壁仞科技、天数智芯、沐曦等,这类厂商大多成立于 2019-2021 年前后,并以 AI 芯片起家,目前已拥有上市的产品,主力产品仍以推理卡为主,训练卡在产品成熟度和规模化落地方面与第一梯队厂商存在差距;3)第三梯队:包括起步不久的 AI 芯片初创企业以及特定行业的AI 芯片厂商,目前这类厂商仍处于芯片设计、流片等早期阶段,或者产品仅用于特定行业,产品量产规模较小。

2018 年开始海光切入 DCU 市场,并于 2021 年实现量产,目前主力芯片包括深算一号和深算二号,主要面向超算领域,同时,公司开始切入 AI 场景,新一代产品深算三号有望实现AI 性能的跃升。2018 年公司启动深算一号的研发,在 2021 年量产当年便贡献2.39亿元收入。深算一号采用 GPGPU 架构,具备全精度浮点数据和各种常见整型数据计算能力,可提供FP64算力,并且主要应用于超算中心等高性能计算领域,在 AI 领域尤其是大模型训练场景应用较少。2020 年公司启动深算二号研发,并于 2023 年正式发布,深算二号较前代产品性能提升了100%,同样主要面向超算领域。目前海光 DCU 已在国家超级计算郑州中心等超算中心落地。为进一步补齐 DCU 产品在大模型训练场景下的性能短板,公司正在研发新一代产品深算三号,我们认为,深算三号有望成为国内领先的 AI 芯片。

3.3 平台与架构高度兼容 CUDA 生态,实现生态端无缝切换

在技术路线上 AI 芯片可分为两大阵营,其中昇腾、寒武纪、平头哥和昆仑芯等采用ASIC架构,而包括海光、天数智芯以及壁仞科技、摩尔线程、沐曦等则采用GPGPU架构。1)ASIC:芯片专用性强而通用性弱,同时具有功耗低、性能高、体积小的优势,代表厂商包括昇腾、平头哥、昆仑芯、寒武纪,华为、阿里、百度本身具有大量特定的业务需求,因此通过自研ASIC芯片满足自身业务需求;2)GPGPU:英伟达、AMD 均采用GPGPU 架构,国产厂商中海光信息、壁仞科技、摩尔线程等 AI 芯片厂商中拥有多为 AMD 和英伟达任职经历的技术专家,选择了 GPGPU 的技术路线。 由于英伟达属于 GPGPU 阵营,公司 DCU 采用 GPGPU 架构有助于降低CUDA迁移难度并减少性能损失。目前大模型已深入到 AI 芯片硬件层面做优化,达到芯片片上缓存大小优化的级别,因此,芯片架构会影响大模型以及上层 AI 应用的性能,而具有同样架构的芯片,其模型和应用迁移的性能损失相对较小。海光和英伟达同属于GPGPU 阵营,均通过采用大量并行计算单元的方式提升 AI 算力,而华为昇腾、寒武纪 ASIC 架构芯片主要围绕矩阵做脉动阵列计算,其 AI 核心专门应用于矩阵运算,与 GPGPU 架构差异较大。因此,相比于ASIC芯片,海光 DCU 的 CUDA 迁移效率损失更低。

海光 DTK 平台封装了 ROCm 相关组件,由于 ROCm 与CUDA 相似度非常高,因此海光 DTK 平台能够高度兼容 CUDA 生态。AMD 的 ROCm 框架借鉴了CUDA的许多设计理念,对 CUDA 具有高度兼容性。经过多年兼容经验积累,在主要模块上,ROCm与CUDA高度相似,其中,在软件库方面,ROCm 的基础库几乎实现了与 CUDA 的一一对应,在编译器方面,ROCm 以 HCC 对应 CUDA 的 NVCC。同时,ROCm 采用的核心编程模型HIP 在语法和API接口上也类似于 CUDA,大部分 CUDA API 调用都可以快速转换为HIP 调用。而海光信息的开放软件平台 DTK 封装了 ROCm 生态相关组件,同时基于 DCU 硬件进行优化并提供完整的软件工具链,能够充分发挥 ROCm 高度兼容 CUDA 的优势,以更低成本将CUDA上运行的应用迁移到海光平台上运行。

同时,不同于华为昇腾、摩尔线程等厂商自行开发软件库、框架兼容程序等,海光充分利用开源社区,大量采用国际主流开源方案,较大程度上降低了生态拓展难度。海光DTK软件平台中 MIOpen、Eigen、RCCL 等软件库均来自于开源社区,且均为目前使用较广泛的方案,一方面能够降低软件开发工作量,提升用户吸引力,另一方面也方便用户进行二次开发,从而提升用户体验。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告