2024年寒武纪研究报告:中国AI芯片巨头加速成长

1、 国产 AI 芯片先行者,产品技术国内领先

1.1 专注人工智能芯片领域,注重研发构筑护城河

我国稀缺的 AI 算力芯片厂商。寒武纪成立于 2016 年,自成立以来一直专注于 人工智能芯片产品的研发与技术创新,致力于打造人工智能领域的核心处理器芯 片。公司的主营业务是各类云服务器、边缘计算设备、终端设备中人工智能核心 芯片的研发、设计和销售,主要产品为云端智能芯片及加速卡、训练整机、边缘 智能芯片及加速卡、终端智能处理器 IP 以及上述产品的配套软件开发平台。随 着人工智能市场需求潜力逐步释放,通用型人工智能芯片未来将成为该市场的主 流产品。 公司全面系统掌握了通用型智能芯片及其基础系统软件研发和产品化核心技术。 公司能提供云边端一体、软硬件协同、训练推理融合、具备统一生态的系列化智 能芯片产品和平台化基础系统软件。通用型智能芯片及其基础系统软件的研发需 要全面掌握核心芯片与系统软件的大量关键技术,技术难度大、涉及方向广,其 中处理器微架构与指令集两大类技术属于最底层的核心技术。公司在智能芯片领 域掌握了智能处理器微架构、智能处理器指令集、SoC芯片设计、处理器芯片功 能验证、先进工艺物理设计、芯片封装设计与量产测试、硬件系统设计等七大类 核心技术;在基础系统软件技术领域掌握了编程框架适配与优化、智能芯片编程 语言、智能芯片编译器、智能芯片高性能数学库、智能芯片虚拟化软件、智能芯 片核心驱动、云边端一体化开发环境等七大类核心技术。

云端智能芯片及加速卡是云服务器、数据中心等进行人工智能处理的核心器件, 其主要作用是为云计算和数据中心场景下的人工智能应用程序提供高性能、高计 算密度、高能效的硬件计算资源,支撑该类场景下复杂度和数据吞吐量高速增长 的人工智能处理任务。得益于公司领先的智能处理器架构技术以及成熟的芯片设 计能力,云端智能芯片产品具有卓越的性能和能效,可覆盖视觉处理、语音处理、 自然语言处理、推荐系统搜索引擎及传统机器学习等多样化应用领域,支持人工 智能推理和训练任务,为云计算与数据中心场景的行业客户和互联网客户提供高 效可靠的产品。公司于 2018 年推出了中国首款高峰值云端智能芯片思元 100, 之后通过技术创新和设计优化,相继推出思元 270 和思元 290,芯片架构针对人 工智能应用及各类算法进行了优化,持续提升产品的性能、能效和易用性。

公司已量产的云端智能芯片及加速卡产品可提供从 30TOPS 到 128TOPS 的单加 速卡单芯片计算能力。浪潮、联想、新华三等厂商与公司开展密切合作,可为客 户提供一机双卡、一机四卡、一机八卡等不同配置的服务器产品,单台服务器的 人工智能计算能力最高可达 1,024TOPS。在云计算数据中心场景下,可由多台 服务器组成智能计算集群,为客户提供更高的人工智能计算能力。 公司为云边端全系列智能芯片与处理器产品提供统一的平台级基础系统软件 Cambricon Neuware(含软件开发工具链等),打破了不同场景之间的软件开发 壁垒,兼具高性能、灵活性和可扩展性的优势,无须繁琐的移植即可让同一人工 智能应用程序便捷高效地运行在公司云边端系列化芯片与处理器产品之上。在 Cambricon Neuware 的支持下,程序员可实现跨云边端硬件平台的人工智能应 用开发,以“一处开发、处处运行”的模式大幅提升人工智能应用在不同硬件平 台的开发效率和部署速度,同时也使云边端异构硬件资源的统一管理、调度和协 同计算成为可能。Cambricon Neuware 是公司打造云边端统一的人工智能开发 生态的核心部件。 公司自有的云端智能芯片加速卡是服务器集群核心智能计算能力的来源;公司将 加速卡集成到配套服务器及相关系统中,并根据实际应用场景需求配置相应的基 础系统软件与开发工具,最终形成智能计算集群系统交付客户验收。

1.2 创始人学术背景强大,技术实力深厚

寒武纪于 2020 年在科创板上市。截至 2024 年 3 月 31 日,中国科学院计算机 技术研究所全资子公司北京中科算源资产管理有限公司持有寒武纪15.76%的股 权。 寒武纪创始人、董事长、实际控制人陈天石博士:曾就读于中国科学技术大学少 年班,获中国科学技术大学计算机软件与理论专业博士学位,曾于中国科学院计 算技术研究所任研究员(教授)和博士生导师。陈天石博士是人工智能芯片领域 基础学术研究和商用产品研发的关键推动者之一,曾获国家自然科学奖二等奖、 中国科学院杰出科技成就奖等荣誉。 陈天石博士在人工智能和处理器芯片等相 关领域从事基础科研工作十余年积累了坚实的理论功底和丰富的研发经验,曾获 “中国科学院杰出科技成就奖”(2019 年)、“北京市有突出贡献的科学技术管 理人才”(2019 年)、“上海市五一劳动奖章”(2019 年)、“科技部科技创新创 业人才”(2018 年)、“央视年度科技创新人物”(2017 年)、“上海市青年五四 奖章”(2017 年)等众多荣誉。

股权激励计划彰显企业信心。2023 年 11 月公司公告股权激励计划,本激励计 划拟向激励对象授予 800 万股限制性股票,约占激励计划草案公告时公司股本 总额的 1.92%,其中首次授予 650 万股,预留 150 万股。公司激励计划首次授 予的激励对象总人数为 715 人,考核年度为 2024-2026 年,针对每个会计年度 均设置清晰的考核目标。公司此次股权激励计划涉及范围较广,有助于增强内部 整体信心。

1.3 财务分析:23 年亏损同比收窄,注重研发投入

2023 年亏损同比收窄。2023 年,公司凭借人工智能芯片产品的核心优势,拓展 算力基础设施项目,深耕行业客户,实现营收 7.09 亿元,同比下滑 2.70%;实 现归母净利润-8.48 亿元,同比亏损收窄。2024Q1 实现营收 0.26 亿元,实现归 母净利润-2.27 亿元。

智能计算集群系统业务营收持续增长。2023 年公司的智能计算集群系统业务贡 献收入 6.05 亿元,同比增长 31.85%,主要系公司成功在沈阳、台州实施智能 计算集群项目,保持了智能计算集群系统业务收入的持续增长。公司云端产品线 目前包括云端智能芯片及加速卡和训练整机产品。受供应链影响,2023 年云端 产品线贡献收入 0.91 亿元,同比下降 58.73%。

公司聚焦云端大算力 AI 芯片核心赛道,持续推动产品迭代,技术壁垒不断巩固。 公司 2023 年毛利率为 69.16%,同比增长 3.40pct;2024Q1 毛利率为 57.61%。 公司研发费用率仍维持相对高位,2023 年和 2024Q1 研发费用分别为 11.18 亿 元和 1.70 亿元,研发费用率为 158.53%和 660.83%。

2、 全球 AI 芯片空间广阔,美国制裁有望持 续提升中国 AI 芯片份额

2.1全球 AI 芯片空间广阔

全球:算力军备竞赛持续,AMD 看 27 年 AI 芯片市场规模 4000 亿美元。AMD CEO Lisa SU 在 23 年 12 月 7 日宣布将 2027 年 AI 芯片市场 1500 亿美元的规模上调 到 4000 亿美元。计算系统要满足行业 AI 场景的复杂巨大且多样性的计算需求, 从 2012 年开始的 6 年中,AI 计算的需求增加了 30 万倍,远远超过了摩尔定律 的增长速度。

英伟达公布未来 3 年路线图,Blackwell 已开始投产。 2024 年 6 月 2 日晚间,台北国际电脑展(COMPUTEX)开幕前夕,英伟达联合 创始人兼首席执行官黄仁勋在台湾大学综合体育馆发表主题演讲,分享了人工智 能时代如何助推全球新产业革命。 黄仁勋公开展示英伟达目前最强性能产品 GB200 主板。这块主板搭载两颗 Blackwell B200 GPU 芯片、一颗 Grauce CPU 芯片,通过其互联技术组合为一 体。该产品首次亮相是在今年 3 月份的英伟达 GTC 大会上。 据英伟达 2024 年 3 月宣称,训练一个 1.8 万亿个参数的模型以前需要 8000 个 Hopper GPU 和 15 兆瓦的电力。如今,2000 个 Blackwell GPU 就能完成这项 工作,耗电量仅为 4 兆瓦。在具有 1750 亿个参数的 GPT-3 LLM 基准测试中, GB200 的性能是 H100 的 7 倍,而英伟达称其训练速度是 H100 的 4 倍。

Blackwell 全面投产,八年间算力增长 1000 倍。黄仁勋认为,随着 CPU 扩展速 度放缓,最终会基本停止,然而需要处理的数据继续呈指数级增长,最终导致计 算膨胀和计算成本的提升。而 GPU 将是改变这一切的关键。

此外,黄仁勋还在这次演讲中介绍了英伟达一系列新产品服务的落地情况,包括 帮助企业部署 AI 大模型的 NIM 云原生微服务、专为 AI 打造的新型以太网 Spectrum-X,以及英伟达开发的机器人技术平台 Isaac 等等。

英伟达 2025 财年 Q1 实现营收 260 亿美元,环比增长 18%,同比增长 262%, 远高于预期的 240 亿美元。其中数据中心营收 226 亿美元,创历史新高,环比 增长 23%,同比增长 427%,主要得益于对 NVIDIA Hopper GPU 计算平台的持 续强劲需求。英伟达 2025 财年 Q2 收入指引为 280 亿美元(±2%),GAAP 和 NON-GAAP 毛利率为 74.8%(±50pct)和 75.5%(±50pct)。2025 财年预 计毛利率为 75%左右。

国内:与海外相比,算力差距持续拉大。根据 Omida 数据,2023 年微软或者 meta 一家的 H100 采购量已经超过国内 BBAT。 中国算力资源位居世界第二, 仅次于美国,但算力利用效率并不高。其中有两个重要表现,一是数据中心上架 率偏低,二是算力形态中云计算的占比也低。

2.2 美政府对英伟达禁令加速国产替代

美政府对英伟达禁令加速国产替代。制裁持续加码,利好国产 GPU 厂。 2022 年 8 月 26 日,美国政府通知 NVIDIA,美国政府对英伟达 A100 和即将推 出的 H100 集成电路今后向中国(包括香港)和俄罗斯的任何出口提出了新的许 可要求,立即生效。AMD 收到类似通知暂停对中国区所有数据中心 GPU 卡 MI100 和 MI200 发货。 2023 年 10 月,路透独家报道称,美国将出台新规,进一步限制 GPU 出口中国, 限制 H800 性能密度、通信速率等;同时,新规或将限制中国企业通过设在海外 的子公司获得美国 AI 芯片的途径。 2024 年 3 月 30 日,美国商务部下属的工业与安全局(BIS)发布“实施额外出 口管制”的新规措施,修订了 BIS 于 2022、2023 年 10 月制定的两次出口限制 新规,全面限制英伟达、AMD 以及更多更先进 AI 芯片和半导体设备向中国销 售。

2.3 政府智算中心、运营商、互联网,各大下游需求增长

政府智算中心:2025 智能算力超 105EFLOPS。工业和信息化部等六部门 2023 年 10 月 8 日关于印发《算力基础设施高质量发展行动计划》的通知。2025 年 计算力方面,算力规模超过 300EFLOPS,智能算力占比达到 35%。运载力方面, 国家枢纽节点数据中心集群间基本实现不高于理论时延 1.5 倍的直连网络传输, 重点应用场所光传送网(OTN)覆盖率达到 80%,骨干网、城域网全面支持 IPv6, SRv6 等新技术使用占比达到 40%。存储力方面,存储总量超过 1800EB,先进 存储容量占比达到 30%以上。应用赋能方面,围绕工业、金融、医疗、交通、 能源、教育等重点领域,各打造 30 个以上应用标杆。

工业和信息化部等六部门 2023 年 10 月 8 日关于印发《算力基础设施高质量发 展行动计划》的通知。《行动计划》中提到 2023 年智算中心数量为 30 个,2025 年达到 50 个。根据 IDC 圈不完全统计,截至 2023 年底,全国带有“智算中心” 的项目有 129 个,其中 83 个项目有规模披露,规模总和超过 7.7 万 P,其中在 建规模 4.9 万 P。这些智算中心标准不一、规模各样,算力规模一般在 50P、100P、 500P、1000P、有的甚至达到 12000P 以上。

运营商:掘金“算力网络”。虽然三大运营商纷纷降低了 2024 年的资本开支金 额,但他们均计划今年增加在 AI 基础设施等方面的投资。1)中国移动算力领域 投入 475 亿元,同比增长 21.5%,占资本开支比重提升 5.8 个百分点至 27.5%; 2)中国电信今年将在云/算力投资 180 亿元,智算规模超过 21EFLOPS,同比 增长超过 10EFLOPS; 3)中国联通固定资产投资预计约 650 亿元,算网数智 投资坚持适度超前、加快布局。

中国移动:4 月 18 日,中国移动发布 2024 年至 2025 年新型智算中心采购招标 公告,该次项目采购总规模达到 8054 台。 项目分为 2 个标包:标包 1 为 7994 台人工智能服务器及配套产品,中标人数量 为 5 至 7 家;标包 2 为白盒交换机 60 台,中标人数量为 1 家。 标包 1:采购特定场景 AI 训练服务器 7994 台及配套产品,中标人数量为 5 至 7 家;若中标人数量为 5 家,中标份额依次为 27.78%、22.22%、19.44%、16.67%、 13.89%;若中标人数量为 6 家,中标份额依次为 23.91%、19.57%、17.39%、 15.22%、13.04%、10.87%;若中标人数量为 7 家,中标份额依次为 21.05%、 17.54%、15.79%、14.04%、12.28%、10.53%、8.77%。 标包 2:采购白盒交换机 60 台,中标人数量为 1 家,中标份额为 100%。

中国联通:3 月 23 日,中国联通总部人工智能服务器集采采购总规模为 2503 台人工智能服务器,688 台关键组网设备 RoCE 交换机。 中国联通公示了 2024 年人工智能服务器公开集采的结果,昆仑、宝德、虹信和长江 4 家入围。 从 4 家中标候选人的中标情况看,该项目平均中标价约为 20460 万元(不含税)。 其中,昆仑投标报价比平均中标价略高,斩获第一名;宝德的投标报价也高于平 均中标价,获得第二名。虹信和长江分别获得第三名和第四名。 中国电信:2023 年 10 月 13 日,中国电信发布 AI 算力服务器集中采购项目中 标候选人公示,共 80 亿元服务器大标,采购 4175 台 AI 服务器和 1182 台交换 机,14 家中标,AI 智算布局加速。服务器采购已经是仅次于 5G 基站的第二大 采购品类。中国电信 AI 算力服务器集中采购共计 4 个标包,标包 1、2 为 I 系列 服务器,CPU 采用 Intel 至强可扩展处理器,标包 3、4 为 G 系列服务器,CPU 采用鲲鹏处理器。

互联网:大模型训练算力需求井喷式增长。据 OpenAI 测算,自 2012 年以来, 全球头部 AI 模型训练算力需求 3-4 个月提升一倍,每年头部训练模型所需算力 增长幅度高达 10 倍。

3、 寒武纪:壁垒深厚,未来可期

3.1 云边端业务线协同发力,产品矩阵逐渐完善

公司是智能芯片领域全球知名的新兴公司,能提供云边端一体、软硬件协同、训 练推理融合、具备统一生态的系列化智能芯片产品和平台化基础系统软件。公司 掌握的智能处理器指令集、智能处理器微架构、智能芯片编程语言、智能芯片数 学库等核心技术,具有壁垒高、研发难、应用广等特点。公司的主营业务是应用 于各类云服务器、边缘计算设备、终端设备中人工智能核心芯片的研发、设计和 销售,以及为客户提供丰富的芯片产品。目前,公司的主要产品线包括云端产品 线、边缘产品线、IP 授权及软件。 自 2016 年 3 月成立以来,公司快速实现了技术的产业化输出,先后推出了用于 终端场景的寒武纪 1A、寒武纪 1H、寒武纪 1M 系列智能处理器;基于思元 100、 思元 270、思元 290 芯片和思元 370 的云端智能加速卡系列产品;基于思元 220 芯片的边缘智能加速卡。其中,寒武纪智能处理器 IP 产品已集成于超过 1 亿台 智能手机及其他智能终端设备中,思元系列产品也已应用于浪潮、联想等多家服 务器厂商的产品中。思元 220 自发布以来,累计销量突破百万片。

云边端业务线协同发力。公司以云端芯片为业务核心,延伸至边缘产品线服务客 户需求。基础系统软件平台打破不同场景之间的软件开发壁垒。智能计算集群系 统业务核心算力来源是公司自研的云端智能芯片,聚焦人工智能技术在数据中心 的应用,提供软硬件整体解决方案,以科学地配置和管理集群的软硬件、提升运 行效率。

3.2 掌握智能芯片和基础系统软件领域核心技术

从系统角度看人工智能领域,智能芯片是最底层的硬件物质载体,提供了充裕的 智能计算能力;基础系统软件位于智能芯片和人工智能程序之间,向下管理、调 用和控制智能芯片、向上支撑人工智能程序的开发和运行。在通用型智能芯片及 基础系统软件之上,开发者可以研发各类人工智能算法、实现各类人工智能程序, 最终实现机器视觉、语音处理、自然语言处理以及推荐系统等多样化的人工智能 功能。公司全面系统掌握了通用型智能芯片及其基础系统软件研发和产品化核心 技术,能提供云边端一体、软硬件协同、训练推理融合、具备统一生态的系列化 智能芯片产品和平台化基础系统软件。公司不直接从事人工智能最终应用产品的 开发和销售,但对各类人工智能算法和应用场景有着深入的研究和理解, 能面 向市场需求研发和销售性能优越、能效出色、易于使用的智能芯片及配套系统软 件产品,支撑客户便捷地开展智能算法基础研究、开发各类人工智能应用产品。

(1)云端智能芯片

公司云端智能芯片主要以实体芯片或加速卡的形式应用于各类云服务器或数据 中心中。根据公司招股说明书,公司在完成芯片设计的一系列复杂流程后,将最 终的芯片版图交付给台积电进行晶圆代工,然后委托日月光或 Amkor 等厂商完 成芯片的封装测试,再由电路板厂商使用芯片生产出加速卡(即包含智能芯片的 电路板),最后将加速卡销售给客户,这也是全球各大芯片设计企业常见的运营 模式。云端智能芯片及加速卡需与服务器厂商生产的服务器整机产品进行适配, 通过服务器厂商、OEM 厂商针对其功能和性能(如稳定性、运行速度和功耗等) 的全方位严格认证,才能进入大规模商用阶段。因此,研发此类产品不仅要攻克 智能芯片架构等一系列核心技术难关,还要跨越各服务器厂商的高准入门槛。 云端智能芯片性能方面,寒武纪、英伟达、华为海思研制的云端芯片产品都已采 用 7nm 等先进工艺,在性能功耗比上较为接近。在峰值计算能力方面,英伟达 凭借其 A100 占据了领先位置,高于寒武纪与华为海思的竞争产品;英特尔通过 收购 HabanaLabs 获得了 Goya 和 Gaudi 两款产品,其峰值计算能力未披露, 但推测应低于英伟达 A100。在智能计算的基础软件生态上,英伟达的 CUDA 软 件生态成熟完备,在该领域处于绝对领先地位,相对寒武纪、华为海思与英特尔 具备显著的优势;在智能计算市场份额与认知度上,英伟达的 GPU 产品仍处于 绝对领先地位,而公司、华为海思与英特尔的相关产品仍处于市场开拓期。

(2)基础系统软件技术

公司能为自有云端、边缘端、终端全系列智能芯片与处理器产品提供统一的平台 级基础系统软件和编程接口,公司自研的基础系统软件平台 Cambricon Neuware 彻底打破了云边端之间的开发壁垒,兼具高性能、灵活性和可扩展性 的优势,仅需简单移植即可让同一人工智能应用程序便捷高效地运行在公司云边 端系列化芯片/处理器产品之上。公司在基础系统软件方面各项核心技术的先进 性具体如下:

1) 编程框架适配与优化

公司在自有智能芯片产品之上研发的基础系统软件 Cambricon Neuware 可支 持各主流人工智能编程框架,包括 TensorFlow、PyTorch、Caffe、MXNet 等。 开发者可直接基于主流编程框架为寒武纪云端、边缘端、终端各款智能芯片和处理器产品方便地编写应用,这显著降低了遗产代码迁移的成本,提升了人工智能 应用开发的速度,是公司云边端一体化生态体系的核心保障。为了高效支撑各类 人工智能编程框架,并针对公司芯片产品的特性拓展和优化已有的编程框架。公 司掌握的关键技术包括: ①解决编程框架高层算子和智能芯片底层 MLU 指令集间的语义匹配问题。 其中,计算图融合技术通过基于规则的子图匹配融合多种不同类型的计算, 能有效提升智能芯片对存储资源的利用率。 ②计算图并行技术通过算子间及算子内并行等方式充分利用智能芯片中充 裕的并行计算单元。 ③数据布局优化技术能从软件视角有效缓解智能芯片的访存带宽压力,提 升整体处理效率。 ④定点化训练技术通过自适应位宽量化机制实现了基于定点数据处理的人 工智能训练,突破了传统浮点训练的性能瓶颈,可大幅提升智能芯片用于训 练任务时的性能。

2) 智能芯片编程语言

公司成功研发智能芯片编程语言及其产品级编译器。公司研发的 BANG 语言不 仅支撑已有的以 C/C++语言编写的智能应用到智能芯片的快速移植,还通过语 言扩展进一步具备了对智能芯片的硬件特性进行精确描述的能力。具体而言, BANG 语言通过提供多种存储类型来描述智能芯片的存储资源;通过提供同步 及并行等操作来描述智能芯片的控制资源;通过提供多种数据类型以及计算原语 来描述智能芯片的计算资源。BANG 语言充分利用了智能芯片的硬件架构特性以 显著提升智能算法执行时的性能,并可在不改变用户编程习惯的前提下适应未来 新出现的智能算法,从系统软件角度赋予寒武纪系列智能芯片卓越的前瞻性和通 用性。同时,基于 BANG 语言开发的算子及应用能在公司云端、边缘端、终端 各款智能芯片和处理器产品方便地进行迁移,有力地支撑了寒武纪云边端一体化 生态体系。

3) 智能芯片编译器

公司研发了可将以 BANG 语言编写的程序编译成智能芯片底层指令集(MLU 指 令集)机器码的智能芯片编译器。公司在该方向上掌握了片内存储分配、自动软 件流水、全局指令调度等一系列关键技术:片内存储分配实现了对片内各类存储 资源的高效重复利用;自动软件流水实现了对并行计算资源的充分利用;全局指 令调度实现了对存储和计算资源的均衡利用。优化后的编译器自动生成的机器码 在性能上接近专家手工优化的代码,且开发效率提升了一个数量级以上,可大幅 降低在智能芯片上做应用开发的门槛。

4) 智能芯片高性能数学库

人工智能领域常见的推理和训练任务可以解构并归纳抽象为数百个基本数学算 子(如向量运算、卷积等)。公司在自有智能芯片上将这些基本数学算子预先作 了高效实现,形成了一套覆盖面广、性能优异的高性能数学库。目前,公司开发 的高性能数学库已经伴随着公司的处理器和芯片产品服务于过亿台智能终端和 服务器设备。公司在该方向上掌握了自动模板匹配、算子深度融合、静态片上存 储管理及多核架构自适应等一系列关键技术。其中,自动模板匹配实现了对复杂 手工优化指令模板的精准匹配,提升了处理效率;算子深度融合实现了多类复杂 算子的片上数据驻留与融合,大幅度降低了对片外访存带宽的需求;静态片上存 储管理实现了对变长片上存储访问的最优分配,能够显著提升对片上存储空间的 利用率;多核架构自适应使高性能数学库能快速适应硬件架构的多核扩展。基于 上述关键技术,公司研发的高性能数学库具有较高的访存有效利用率及最终运行 效率。

5) 智能芯片虚拟化软件

公司针对寒武纪系列智能芯片研发的虚拟化软件,可以将物理上的单个智能芯片 虚拟化为数量可配、规模可选且具有良好安全性和隔离性的虚拟智能芯片,以供 多个虚拟机或容器同时使用。公司在该方向上掌握了异构资源共享、热迁移及容 器支持等系列关键技术。其中,异构资源共享支持智能芯片上的计算、存储和编 解码等多种异构资源的共享,可以有效提升资源利用率;热迁移可以突破传统虚 拟化的瓶颈以支持灵活高效的任务迁移;容器支持则为数据中心提供了轻量级部 署和集群管理方案的支撑。基于上述关键技术,公司所研发的虚拟化软件不仅能 提供良好安全性和隔离性,还能保证服务质量,在各类人工智能应用负载上具有 良好的虚拟化性能。

6) 智能芯片核心驱动

公司研发的核心驱动程序是保证智能芯片在操作系统中高效运行的底层基础组 件。公司在该方向上掌握了多内存模型管理、异步任务调度及高效数据拷贝等一 系列关键技术。其中,多内存模型管理技术可以提升复杂异构架构下的内存访问 效率;异步任务调度可以提升多任务处理的吞吐率;高效数据拷贝可以提升主机 /设备间数据传输效率。基于上述关键技术的突破,公司研发的核心驱动可以支 撑不同计算和存储架构下数据的高效传输和多任务的高效运行,以统一的用户接 口支撑多种型号的智能芯片/处理器和各类型操作系统。

7) 云边端一体化开发环境

公司研发的云边端一体化开发环境,为公司云边端系列芯片提供统一的软件开发 工具链,支持程序员实现跨云边端硬件平台的人工智能应用开发,以“一处开发、 处处运行”的模式大幅提升跨平台开发效率和部署速度。公司在该方向上掌握了 如下关键技术:指令动态生成通过即时编译的方式,结合指定的硬件信息进行全 局数据流优化,实现在运行时生成面向硬件平台优化的指令流;跨平台环境模拟 通过细粒度调节处理器核的频率、访存带宽以及可用片上存储大小等参数,实现 了跨云边端平台的程序执行环境模拟;跨平台运行时通过软件计算逻辑和硬件运 算资源的解耦,保证了不同硬件平台上应用的快速灵活部署。

3.3 智能计算集群系统优势显著

公司智能计算集群系统一般根据客户要求进行定制化开发,这样可以最大限度地 发挥思元系列芯片及加速卡产品的技术优势和特点,降低了客户使用和维护复杂 计算集群设备的难度和成本,将计算能力以云计算的形式输出,降低了用户开发、 部署智能应用的门槛,为智能应用程序的维护、升级提供了有力支持。同时,公 司智能计算集群系统具有实时监控系统运行状态、迅速定位系统异常、故障快速 恢复等优势,具有较强的市场竞争力。公司 CambriconNeuware 基础软件系统 平台还具备优秀的可扩展性,能有效支撑众多用户的智能计算需求,大幅提升智 能硬件的利用率,同时提升公司在人工智能数据中心市场的竞争力。 公司智能计算集群系统的核心是公司自研的思元系列智能芯片加速卡、基础系统 软件平台,以及智能计算集群管理系统。公司通过将自有云端智能芯片加速卡产 品与产业链其他厂商提供的服务器、存储设备和网络设备等硬件设施集成,为整 个计算集群提供智能计算能力支撑;以自研的 Cammbricon Neuware 基础系统 软件平台为基础,结合客户需求搭建定制化的应用管理平台,提供系统运维、资 源调度、应用管理等功能。 寒武纪智能计算集群、英伟达智能计算集群、华为智能计算集群,在可扩展性、 性能、能耗、延时和吞吐等指标上相对接近,均可满足集群中典型推理和训练任 务的需求。在能耗方面,三种智能计算集群均显著优于通用计算集群。

公司为云边端全系列智能芯片与处理器产品提供统一的平台级基础系统软件 Cambricon Neuware(含软件开发工具链等),打破了不同场景之间的软件开发 壁垒,兼具高性能、灵活性和可扩展性的优势,无须繁琐的移植即可让同一人工 智能应用程序便捷高效地运行在公司云边端系列化芯片与处理器产品之上。在 Cambricon Neuware 的支持下,程序员可实现跨云边端硬件平台的人工智能应 用开发,以“一处开发、处处运行”的模式大幅提升人工智能应用在不同硬件平 台的开发效率和部署速度,同时也使云边端异构硬件资源的统一管理、调度和协 同计算成为可能。Cambricon Neuware 是公司打造云边端统一的人工智能开发 生态的核心部件。

Cambricon Neuware 包括编程框架适配包、智能芯片高性能数学库、智能芯片 编程语言、智能芯片编译器、智能芯片核心驱动、应用开发调试工具包和智能芯 片虚拟化软件等关键组件。在开发应用时,用户既可以基于 TensorFlow 和 PyTorch 等主流编程框架接口编写代码,也可以使用公司预先优化的智能芯片 高性能数学库对编程框架算子进行扩展或直接编写代码;用户同样可以通过智能 芯片编程语言(BANG 语言)对算子进行扩展或直接编写代码;智能芯片编译器 可以完成 BANG 语言到 MIU 指令的编译,并在智能芯片核心驱动的支持下使其 高效地运行于公司各款芯片产品之上。在开发过程中,用户还可以通过应用开发 调试工具包所提供的调试工具、性能剖析工具和系统监测工具等高效地进行应用 程序的功能调试和性能调优。此外,Cambricon Neuware 也可以通过智能芯片 虚拟化软件为云计算与数据中心场景提供关键支撑。目前,公司尚未对 Cambricon Neuware 进行单独销售,主要配合云端、边缘端和终端产品线的推 广和销售公司对于基础系统软件平台产品采取灵活的商业策略,可为大客户提供 定制化的系统软件开发服务等。

1) Cambricon Neuware 训练软件平台

训练软件平台支持基于主流开源框架原生分布式通信方式,同时也支持 Horovod 开源分布式通信框架,可实现从单卡到集群的分布式训练任务。支持 多种网络拓扑组织方式,并完整支持数据并行、模型并行和混合并行的训练方法。 训练软件平台支持丰富的图形图像、语音、推荐以及 NLP 训练任务。通过底层 算子库 CNNL 和通信库 CNCL,在实际训练业务中达到业界领先的硬件计算效率 和通信效率。同时提供模型快速迁移方法,帮助用户快速完成现有业务模型的迁 移。

2)推理加速引擎 MagicMind

MagicMind 是寒武纪全新打造的推理加速引擎,也是业界首个基于 MLIR 图编译 技术达到商业化部署能力的推理引擎。借助 MagicMind,用户仅需投入极少的 开发成本,即可将推理业务部署到寒武纪全系列产品上,并获得颇具竞争力的性 能。

MagicMind 是寒武纪全新打造的推理加速引擎,也是业界首个基于 MLIR 图编 译技术达到商业化部署能力的推理引擎。MagicMind 支持跨框架的模型解析、 自动后端代码生成及优化。用户使用 MLU、GPU 或者 CPU 训练好的算法模型, 借助 MagicMind 仅需投入极少的开发成本,即可将推理业务部署到寒武纪全系 列产品上,并获得颇具竞争力的性能。 MagicMind 的优势在于不仅可以提供极 致的性能、可靠的精度以及简洁的编程接口,让用户能够专注于业务本身,无需 理解芯片更多底层细节就可实现模型的快速高效部署;与此同时,通过 MagicMind 插件化的设计,还可以满足在性能或功能上追求差异化竞争力的客 户需求。

3.4 立足高算力领域,受益 AI 全面开拓

公司所研发的通用型智能芯片产品,具备灵活的指令集和精巧的处理器架构,技 术壁垒高但应用面广,可覆盖人工智能领域高度多样化的应用场景(如视觉、语 音、自然语言理解、传统机器学习、生成式人工智能等)。与 CPU、GPU 等芯片相比,通用型智能芯片能够更好地匹配和支持人工智能算法中的关键运算操 作,在性能和功耗上存在显著优势。 公司核心人员在处理器芯片和人工智能领域深耕十余年,带领公司研发了智能处 理器指令集与微架构等一系列自主创新关键技术。公司凭借领先的核心技术,较 早实现了多项技术的产品化,例如推出全球首款商用终端智能处理器 IP 产品寒 武纪 1A、中国首款高峰值云端智能芯片思元 100 等。公司通过技术创新和设计 优化,持续提升产品的性能、能效和易用性,推动产品竞争力不断提升。

公司 AI 芯片技术国内领先,训练与推理产品全面布局。人工智能是计算机科学 的一个分支领域,通过模拟和延展人类及自然智能的功能,拓展机器的能力边界, 使其能部分或全面地实现类人的感知(如视觉、语音)、认知功能(如自然语言 理解),或获得建模和解决问题的能力(如机器学习等方法)。从技术角度看, 当前主流的人工智能算法通常可分为“训练”和“推理”两个阶段。训练阶段基 于充裕的数据来调整和优化人工智能模型的参数,使模型的准确度达到预期。人 工智能芯片是面向人工智能领域而专门设计的芯片,其架构和指令集针对人工智 能领域中的各类算法和应用作了专门优化,可高效支持视觉、语音、自然语言处 理和传统机器学习等智能处理任务。

1)思元 370 系列

思元 370 是寒武纪第三代云端产品,采用 7nm 制程工艺,是寒武纪首款采用 Chiplet 技术的人工智能芯片。思元 370 集成了 390 亿个晶体管,最大算力高达 256TOPS(INT8),是寒武纪第二代产品思元 270 算力的 2 倍。凭借寒武纪最新 智能芯片架构 MLUarch03,思元 370 实测性能表现更为优秀。思元 370 也是国 内第一款公开发布支持 LPDDR5 内存的云端 AI 芯片,内存带宽是上一代产品的 3 倍,访存能效达 GDDR6 的 1.5 倍。搭载 MLU-Link™多芯互联技术,在分布式 训练或推理任务中为多颗思元 370 芯片提供高效协同能力。全新升级的寒武纪 基础软件平台,新增推理加速引擎 MagicMind,实现训推一体,大幅提升了开 发部署的效率,降低用户的学习成本、开发成本和运营成本。

思元 370 系列具有多项核心优势。思元 370 系列具有先进 Chiplet 技术、 MLUarch03 芯片架构、MagicMind 推理加速引擎、训推一体软件开发平台、低 功耗高带宽 LPDDR5 内存、新一代编解码单元、MLU-Link 多芯互联技术、为 AI 浮点计算优化等多个核心优势。

思元 370 智能芯片采用了先进的 Chiplet 芯粒技术,支持芯粒间的灵活组合,仅 用单次流片就达成了多款智能加速卡产品的商用。公司目前已推出 3 款加速卡: MLU370-S4、MLU370-X4、MLU370-X8,已与国内主流互联网厂商开展深入的 应用适配。MLU370-X8 采用双芯思元 370 配置,为双槽位 250w 全尺寸智能加 速卡,提供 24TFLPOS(FP32)训练算力和 256TOPS (INT8)推理算力,同时提供 丰富的 FP16、BF16 等多种训练精度。基于双芯思元 370 打造的 MLU370-X8整合了两倍于标准思元 370 加速卡的内存、编解码资源,同时 MLU370-X8 搭载 MLU-Link 多芯互联技术,每张加速卡可获得 200GB/s 的通讯吞吐性能,是 PCIe 4.0 带宽的 3.1 倍,支持单机八卡部署,可高效执行多芯多卡训练和分布式推理 任务。

2)思元 290 系列

寒武纪思元 290 芯片是寒武纪首颗 AI 训练芯片,采用创新性的 MLUv02 扩展架 构,使用台积电 7nm 先进制程工艺制造,在一颗芯片上集成了高达 460 亿的晶 体管。芯片具备多项关键性技术创新,MLU-Link™多芯互联技术,提供高带宽 多链接的互连解决方案;HBM2 内存提供 AI 训练中所需的高内存带宽;vMLU 帮助客户实现云端虚拟化及容器级的资源隔离。多种全新技术帮助 AI 计算应对 性能、效率、扩展性、可靠性等多样化的挑战。

市场全面拓展,产品逐步落地。2023 年,依托于智能芯片产品的技术领先优势, 公司智能芯片及加速卡持续在互联网、运营商、金融、能源等多个重点行业持续落地,并在业界前沿的大模型领域以及搜索、广告推荐等领域取得了长足的进步。 2023 年公司的智能芯片及加速卡实现收入 1.01 亿元。

在大模型领域,公司与国内头部的算法公司形成了紧密的技术和产品合作。在 视觉大模型领域,公司与智象未来达成了算力产品的合作以及视觉多模态大模型 的深度适配,寒武纪产品为其在线商业应用提供了算力保障。

在语言大模型领域,公司产品与百川智能等头部客户进行了大模型适配,并获 得了产品兼容性认证,产品性能亦达到国际主流产品水平。公司与客户正携手在 各行业垂直领域进行大模型应用探索与落地。

在互联网领域,公司产品在视觉、语音、自然语言等应用场景中持续出货,并 在搜索、广告推荐领域与头部互联网企业达成了产品深度适配及优化,产品性能 达到客户需求,为后续业务落地奠定了坚实的基础。

在金融领域,公司与多家大型银行进行了语言大模型的测试,并正在推动金融 领域的应用落地。目前交通银行已选择嵌入公司智能加速卡的 GPU 服务器为指 定选型。

在通信运营商行业,寒武纪依托集采入围,继续赋能运营商集团及下属省专公 司常用的人工智能业务。未来,寒武纪将持续助力三大运营商共同赋能更多业务 场景的人工智能应用落地,向“AI+”延伸拓展。

在其他垂直行业,公司的智能加速卡继续为传统产业智能化转型保驾护航,助 力智慧粮仓、智慧矿山、智慧物流等场景的业务落地。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告