2024年汽车智能驾驶芯片行业专题报告:充分重视OEM自研智驾芯片的长期意义

一、如何看待OEM自研智驾芯片?

芯片分类:四类主流芯片覆盖市场不同应用场景

当前市场上流通的主流芯片包括四大类:1)处理器芯片,包括CPU、GPU、DSP、和MCU,负 责系统的运算和控制核心,以及信息处理和程序运行的最终执行单元。2)存储器芯片:包括静 态(SRAM)以及动态(DRAM)随机存取存储器等,用于数据的存储。3)模拟-数字转换器 (ADC) 和 数字-模拟转换器 (DAC):这两种芯片分别用于模拟信号和数字信号的互相转换,广 泛应用于传感器和测量仪器中。4)片上系统(SoC):集成微控制器/处理器/存储器/通信接口和 传感器等元件,通过简单编程可以实现丰富的功能。 AI芯片是属于SoC片上系统芯片的特殊分支,是指针对人工智能算法做了特殊加速设计的芯片, 专门用于处理人工智能应用中的大量计算。

AI芯片分类:GPU以及ASIC主导训练/推理应用

为满足行业发展对于芯片处理性质单一但规模庞大的数据计算的需求,产业基于GPU图像处理器 的并行计算能力持续升级,开发了以极致性能为代表的GPU以及以极致功耗为代表的ASIC芯片,以及介于二者之间,兼具灵活性和高性能的FPGA等不同类型芯片,应用于包括云端训练以及边 缘段推理等不同场景。未来,AI芯片将持续迭代,开发高度模拟人脑计算原理的类脑芯片,围绕 人脑的神经元/脉冲等环节,实现计算能力的飞跃提升以及能耗的大幅下降。

芯片生产:设计为基础,制造最核心,封测保性能

芯片制造分为三大步骤,分别是芯片设计、芯片制造、封装测试。 芯片设计:在EDA软件工具的支持下,通过购买授权+自主开发获得IP,遵循集成电路设计仿真 验证流程,完成芯片设计。首先明确芯片目的(逻辑/储存/功率),编写芯片细节,形成完整 HDL代码;其次利用EDA软件(高制程工艺软件市场集中度高)将HDL代码转为逻辑电路图,进 一步转为物理电路图,最后制作成光掩模。 芯片制造:壁垒最高!三大关键工序光刻、刻蚀、沉积,在生产过程中不断重复循环三工序,最 终制造出合格的芯片。过程中要用到三种关键设备,分别是光刻机、刻蚀机、薄膜沉积设备。 封装测试:测试是指在半导体制造的过程中对芯片进行严格的检测和测试,以确保芯片的质量和 稳定性和性能;而封装则是将测试完成的芯片进行封装,以便其被应用在各种设备中。

设计环节:EDA软件格局集中,IP模块是核心产权

EDA:(Electronic Design Automation)电子设计自动化,常指代用于电子设计的软件。目前,Synopsys、Cadence和Mentor(Siemens EDA)占据着90%以上的市场份额。在10纳米以下 的高端芯片设计上,其占有率甚至高达100%。国产EDA工具当前距离海外龙头有较大差距。

IP核:指一种事先定义、经过验证的、可以重复使用,能完成特定功能的模块(类似于excel模 板),物理层面是指构成大规模集成电路的基础单元,SoC甚至可以说是基于IP核的复用技术。 其包括处理器IP(CPU/GPU/NPU/VPU/DSP/ISP…)、接口IP(USB/SATA/HDMI…)、存储器 IP等等几类。对于当前智驾领域AI芯片而言,常用IP核包括CPU、GPU、ISP、NPU、内存控制 器、对外接口(以太网【用于连接不同车身设备以交换数据】和PCIe接口【用于主板上的设备间 通讯】)等。

制造环节:设备/工艺/材料多环节,高壁垒高集中度

芯片制造三大关键工序:光刻、刻蚀、沉积,三大工序在生产过程中不断循环,最终制造出合格 的芯片;其中,设备+工艺+材料等环节尤为关键;芯片制造以台积电、三星、英特尔寡头垄断。设备:三大关键工序要用到光刻机、刻蚀机、薄膜沉积设备三种关键设备,占所有设备投入的 22%、22%、20%左右,是三种难度和壁垒最高的半导体设备。 工艺:芯片制造需要2000道以上工艺制程,主要包括光刻、刻蚀、化学气相沉积、物理气相沉 积、离子植入、化学机械研磨、清洗、晶片切割等8道核心工艺。 材料:硅晶圆和光刻胶是最核心的两类材料,90%以上的芯片在硅晶圆上制造,光刻胶是制造 过程最重要的耗材,半导体光刻胶壁垒最高,全球CR5接近90%。

二、第三方玩家自研智驾芯片成效如何?

厂商布局比较:英伟达/特斯拉最全,其余快速跟进

综合OEM主机厂以及Tier环节供应商,我们梳理自研智驾芯片并已有或即将有成熟产品量产出货 的玩家进行横向对比:英伟达/特斯拉目前云端&边缘端芯片硬件以及对应底软&工具链布局最为 完善,高通聚焦边缘端自研&Tier1落地模式迅速落地,地平线/黑芝麻智能由低到高布局。

英伟达:高举高打,算力+生态最强音

发展历程:由GPU起构建软硬件壁垒,拓展全行业

英伟达成立于1993年,由黄仁勋联合Sun公司两位年轻工程师共同创立。最初致力于GPU的研 发,1999年成功上市。随着GPU在图形和高性能计算领域的成功,英伟达逐渐扩展至人工智能、深度学习、自动驾驶和医疗等领域。公司的GPU技术在科学计算、游戏和专业工作站等领域取得 巨大成功,成为全球领先的半导体公司之一。

CUDA:更好加速GPU计算,构建英伟达生态壁垒

CUDA 是 NVIDIA 发明的一种并行计算平台和编程模型,全称Compute Unified Device Architecture 它通过更好地调用图形处理器 (GPU) 的处理能力,对算法运行进行加速,可大幅提升计算性能, 并构建英伟达自身的软件生态。CUDA的优势在于:1)并行计算:CUDA允许开发者使用GPU的 大量核心进行并行计算,以加速各种计算密集型任务;2)高效内存管理:CUDA提供了高效的内 存管理机制,包括全局内存、共享内存、常量内存等,可以最大限度地利用GPU的内存资源;3) 强大的工具支持:CUDA提供了一系列强大的工具支持,包括CUDA编译器、CUDA调试器、 CUDA性能分析器等,可以帮助开发者更加高效地开发和调试CUDA程序。

围绕芯片硬件,时序进化覆盖不同行业应用

英伟达主要系列芯片包括GeForce、Quadro、Tesla、Tegra、Jetson和DXG,算力&架构持 续迭代。1999年,英伟达推出GeForce系列芯片,主要应用于游戏娱乐;此后,专业级GPU Quadro系列芯片凭借强大的计算能力和大容量显存,广泛应用于专业可视化领域;2008年推出 的Tesla系列芯片可提供快速运算和推理,作为深度学习加速器运用于数据中心;2015、2016年 分别推出Jetson系列和DGX系列,计算推理能力进一步提高,应用于数据中心、汽车、医疗等 领域。英伟达凭借其算法架构的迭代升级,不断开拓产品线,专业化高算力芯片提高整体竞争力。

产品线:未来汽车芯片等相关业务有较大增量空间

汽车方面,高算力芯片助力智驾功能突破升级。1)硬件方面,自动驾驶平台经历了DRIVE PX、DRIVE PX2、DRIVE Xavier、DRIVE Pegasus、DRIVE Orin、DRIVE Thor的迭代。最新一代 自动驾驶平台DRIVE Thor支持L4/L5级别智驾,算力可达2000TOPS,同时,自动驾驶开发平 台Hyperion也将搭载Thor实现性能升级;2)软件方面,CUDA+TensorRT持续优化DRIVE OS,进而提升DRIVE SDK整体性能。

医疗方面,2016年英伟达开始布局医疗领域;2017年合作医疗保健解决方案提供商,将AI带入 医学影像;2018年发布Clara平台;2021年合作Schrödinger,利用DGX A100扩大计算药物发 现平台的速度和准确性;2022年发布IGX平台,改善人机协同。

GPU微架构持续迭代,制程升级,覆盖更多领域

英伟达GPU微架构持续迭代升级,Fermi、Kepler、Maxwell、Pascal、Volta、Turing、 Ampere、Ada Lovelace和Hopper,每一代都在性能、能效和特定任务方面取得不断进步:

2017年后引入Tensor Core,减少乘加操作时间,提供更快计算速度,成为企业级AI首选,年 拓展专业可视化市场,2020年之后正式引入支持AI神经图形以及算力稀疏化的微架构方案。

华为:技术对标英伟达,联合车企培育生态

车端:华为智能汽车E/E架构,软硬件全覆盖

以“计算+通信”为核心—CCA架构+Vehicle Stack跨域集成软件框架。以ICT技术为基础,建立以一个架构(CCA)、五大智能系统(智能驾驶/智能座舱/智能电动/智 能车云/智能网联)、全套智能化部件(智慧屏+AR-HUD+集成式热管理+感知铁三角等)组成 的全栈式解决方案。

昇腾计算产业类比英伟达布局,软硬件/工具链全面

基础硬件是核心:基于华为达芬奇架构,Atlas训练集群可提供 256P~1024P FLOPS FP16的总算力 ,并可提供能效比小于2TOPS/W的边缘端算力,满足效率与能耗的双重需求。 适配不同类型需求,华为提供异构计算架构CANN/AI框架/应用使能等不同类型开发工具:面向上 层应用开发者以及专业AI模型开发者,华为分别提供MindX/MindSpore完整开发工具包;面向底 层算子开发者,华为提供CANN以及MindStudio支持底层开发。

边缘端芯片:自研达芬奇架构造就昇腾310边缘应用

华为昇腾芯片是华为发布的两款人工智能处理器,包含昇腾 310 用于推理和 910 用于训练业务, 均采用自研达芬奇架构。昇腾 310 整数精度(INT8)算力可达 16TOPS,主要应用于边缘计算产 品和移动端设备等低功耗的领域。昇腾 910 整数精度(INT8)算力可达640TOPS,在业界其算力 处于领先水平,性能水平接近于英伟达 A100,支持全场景人工智能应用。

昇腾310是一款高能效、灵活可编程的人工智能处理器,在典型配置下可以输出16TOPS@INT8, 8TOPS@FP16,功耗仅为8W。采用自研华为达芬奇架构,集成丰富的计算单元,提高AI计算完备 度和效率,进而扩展该芯片的适用性。全AI业务流程加速,大幅提高AI全系统的性能,有效降低 部署成本。

云端:昇腾NPU+鲲鹏CPU打造Atlas云端服务器

Atlas 系列硬件产品基于昇腾处理器和业界主流异构 计算部件,通过模组、板卡、小站、服务器 、集群等丰富的产品形态,打造面向“云、边、 端”的全场景 AI 基础设施方案,包括 Atlas 200 AI 加速模块、Atlas 300 AI 加速卡、 Atlas 500 智能小站、Atlas 800 AI 服务器、Atlas 900 AI 集群 等产品,覆盖深度学习领域推理和训练全流程;以鲲鹏系列CPU+昇腾系列NPU结合,在人工智能 计算中心、城市智能人工中枢、通用训练服务器以及视频图像分析等领域,由大到小细节全覆盖。

三、下游OEM玩家如何做?

19年自研FSD智驾芯片,自研NPU保障算力领先

特斯拉自动驾驶硬件解决方案持续升级,2016年10月由Mobileye黑盒转为英伟达开放,逐步掌 握智驾算法后,2019年全自研FSD芯片上车,2024年新一代方案预计上车,芯片再升级。

自研智驾芯片保障成本与性能双领先。特斯拉自2016年2月组建智驾芯片研发团队,2019年4月 FSD芯片正式搭载上车,单车搭载2颗FSD芯片;每颗配置 4 个三星 2GB内存颗粒,单 FSD总计 8GB,同时每颗 FSD配备一片东芝的 32GB闪存以及一颗 Spansion的 64MB NOR flash 用于启 动。凭借NPU针对AI计算更好的专业适用性,3.0时代FSD芯片以14nm制程+260mm²面积实现 144TOPS算力,相比英伟达12nm制程+350mm²支持30TOPS AI算力更为领先。

放弃通用GPU自研专用D1芯片,强化计算+传输

可扩展+强计算,特斯拉D1性能表现业内领先。1)基础性能方面,特斯拉D1由台积电代工,采 用7nm制程工艺,芯片面积为645mm²,小于英伟达A100(826 mm²);D1芯片拥有多达354 个训练节点,是特斯拉专门设计的特别用于AI训练相关的8×8乘法的芯片,浮点计算性能FP32算 力22.6TFLOPS(英伟达A100为19.5),对应热功耗仅为400W; D1芯片集成四个64位超标量CPU 核心,支持完整向量以及矩阵计算,灵活性远超众核架构的GPU 。2)高带宽+低延迟保障强可 扩展性:D1芯片采用带宽最高可达10TB/s的“延迟交换结构”进行互连,加速数据传输。 D1芯 片运行频率2GHz,拥有440MB SRAM,是存算一体架构,降低过程数据缓存压力。 Tile角度, 每个D1训练模块由5x5的 D1芯片阵列排布而成,以二维Mesh结构互连,片上跨内核SRAM达 11GB,每个训练模块外部边缘的 40 个 I/O 芯片达36/10TB/s的聚合/横跨带宽,保障信息传输 过程的低损耗。

报告节选:


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告