2024年智能汽车行业专题报告:从小鹏、理想、蔚来布局,看自动驾驶发展趋势

1、 小鹏:端到端大模型量产落地,体验升级成下阶段主线

1.1、 智驾技术加速演进,XNGP 即将实现“门到门”体验

小鹏无限 XNGP 实现全国都能开,即将步入“门到门”时代。小鹏高速 NGP 功能 在 2021 年 1 月开始推送。2022 年 9 月 17 日,小鹏基于自研的智能辅助驾驶系统 XPILOT,在广州试点推送城区 NGP,是国内最早推送城区 NGP 功能的整车厂。2023 年 3 月,小鹏智能辅助驾驶系统迭代为 XNGP,先后在有高精地图覆盖的深圳与上 海开放城市领航辅助功能,彼时 XNGP 功能的实现仍是基于高精地图,虽然基于此 模式开发自动驾驶较为简单,但道路覆盖有限,用户体验不够完整。2024 年 2 月, 小鹏使用无图智驾的无限 XNGP 向部分拥有智驾经验的用户推送,此后在 2024 年 7 月,无图 XNGP 全量推送,实现全国都能开,并计划在 2024Q4 实现完全“门到门” 的体验。短短三年半的时间,小鹏的自动驾驶持续突破,端到端大模型技术大大加 速小鹏自动驾驶进程。

1.2、 端到端大模型拓展能力边界,智驾领军车企坚定布局

1.2.1、 分段式端到端大模型量产上车,XNGP 能力加强

国内首个端到端大模型量产上车,神经网络 XNet+规控大模型 XPlanner+大语言模 型 XBrain 形成合力。在小鹏上一代的自动驾驶系统中,只有感知一个模块用到 AI 模型,其余的模块基本都是人工定义的规则,这需要大量的人工定义的规则,在人 力、时间、维护成本上均具有劣势。较为稳定的传统量产智驾系统,大约有 10 万条 左右各类人工定义的规则,而一个无限接近人类司机的自动驾驶系统,大概等效于 10 亿条规则,这对于需要快速更新迭代的自动驾驶系统来说是难以承担的。端到端 技术范式是指数据输入端和指令输出端通过完全数据驱动,让 AI 学习人类成熟驾驶 行为,从而实现快速迭代、减少成本。小鹏在 2021 年开始转向端到端,目前其端到 端大模型由神经网络 XNet+规控大模型 XPlanner+大语言模型 XBrain 三部分组成。

(1)神经网络 XNet:XNet 是深度视觉感知神经网络,是“静态 XNet”“动态 XNet” 与“纯视觉 2K 占用网络”的集成,可以比作智能驾驶的眼睛。其中“静态 XNet”可以 对感知到的数据进行实时 3D 建图,使智驾系统摆脱掉对高精地图的依赖,提高智驾 系统的适应能力;“动态 XNet”则具有对周边环境和交通参与者的行为进行预测与博 弈的能力,并给出合理的决策,能够处理复杂的交通情况,提高驾驶的安全性和舒 适性;“纯视觉 2K 占用网络”通过摄像头信息的分析,来构建 3D 体素来规划出空间 内被占用和未被占用的路线,对现实世界中的可通行空间进行 3D 高真实度还原。深 度视觉感知神经网络 XNet 的上车,能够对现实世界环境的重建更为精准,同时预测 能力和行驶规划的能力也会更强,汽车感知范围提升 2 倍,面积可达 1.8 个足球场大 小,能精准识别 50 个以上目标物。

(2)规划大模型 XPlanner:XPlanner 同样基于神经网络,具备长时序、多对 象、强推理的特点,能够结合分钟级以上的时序连续分析动机,并依据周边环境信 息及时变通,生成最佳的运动轨迹,可以比作智能驾驶的小脑。通过海量“五星司 机”的驾驶数据对规划大模型 XPlanner 进行训练,基于数据驱动模式迭代,取代人 类手写规则代码,能让智驾系统的驾驶策略向着拟人化进化。效果上,规划大模型 XPlanner 能够让小鹏汽车的智驾系统在真实道路体验中减少 50%的前后顿挫、60% 的违停卡死以及 40%的安全接管。

(3)大语言模型 XBrain:XBrain 的能力就是让智驾系统拥有类似人类大脑的 学习和理解的能力,以此来赋予智驾系统处理复杂场景甚至未知场景的泛化处理能 力,以及对现实世界中宏观逻辑的推理能力。XBrain 侧重于整个大场景的认知,XNet 侧重于感知和语义。在 XBrain 的赋能下,小鹏汽车的智驾系统能够清晰地分辨出待 转区、潮汐车道、特殊车道甚至是路牌文字,秒懂各种令行禁止、快慢缓急的行为 指令,进而做出兼顾安全、性能的拟人驾驶决策,做出兼顾安全和效率的拟人驾驶 决策。

小鹏端到端技术逐步渐进,当前模型采用分段式结构。端到端大模型不是只有神经 网络,而是将感知、策略和规控统一在相同的 Transformer 架构下,保证模型有足够 解释性的前提下,逐渐提升各部分的一体化程度。小鹏的端到端大模型可分为三大 部分,采用的分段式方案,据汽车新技术资料,相对于 One Model 方案,分段式端 到端技术难度更低,同时对于算力和数据的要求也低的多:单一大模型的端到端智 驾至少需要 3 万台量产车提供数据,而分段式可能只需要 1/10 的量。

1.2.2、 端到端大模型下迭代速度显著加快,助力体验升级

端到端时代,小鹏智驾迭代速度显著加快。迭代速度端到端小鹏高速 NGP 功能在 2021 年 1 月开始推送,并在 2021 年开始转向端到端范式, 21 个月之后,在 2022 年 10 月开通个别城市的城市 NGP,又过了 13 个月,在 2023 年 11 月,XNGP 正式 无图推送,城市智驾开放 25 城,而仅仅 8 个月之后的 2024 年 520 AI DAY 发布会上, 宣布量产上车国内首个端到端大模型,AI 智驾取代传统智驾,XNGP 开放到所有城 市,全面无图时代到来。2025 年实现城区智驾比肩高速智驾体验:平均 1000 公里接 管一次。自 AI 天玑系统 5 月 20 日全球首次发布以来,70 天内累计推送 5 次全量更 新,实现至少 35 个版本迭代。

AI 智驾时代,庞大训练数据是智驾能力快速迭代的底座。基于折算超 10 亿公里的 视频训练(2023 年 5 月)、超 756 万累计公里数的实车测试(2023 年 7 月)、超 2.16 亿累计公里数的仿真测试(2023 年 5 月),小鹏端到端大模型能够做到“每 2 天一次 版本迭代,每 2 周一次体验升级”,在未来 18 个月内智驾能力提升 30 倍。值得注意 的是,除了实车数据之外,小鹏的数据量中也一定程度使用了仿真的合成数据,帮 助小鹏在端到端时代数据量不足的情况下能够有效迭代。 对数据的清晰处理以及高效的挖掘和解读是小鹏高效迭代的重要抓手。纯数据驱动 的神经网络算法要实现升级迭代,数据闭环体系的构建是关键。通过收集实车数据、 云端模型训练并结合仿真能力,自动驾驶算法的长尾场景应对能力将大幅提升。小 鹏将数据闭环分为“数据收集、标注、训练和部署”四个环节,根据 2022 年小鹏 1024 科技日数据,小鹏彼时已在近 10 万辆的小鹏车型上部署了超过 300 个触发器,形成 了一个“全闭环、自成长的 AI 和数据体系”,全栈数据闭环能力使城市场景被动接 管率降低 38%,仿真能力使小鹏能够创造出更多的长尾场景,保护程度能提升 4 倍, 数据获取及算法测试成本将大幅下降。

1.2.3、 智驾领军车企,围绕智驾相关领域坚定布局

小鹏在自动驾驶研发投入、团队组织、云端算力、硬件自研方面坚定布局。 (1)在研发投入层面,小鹏 2024 年将投入 35 亿元用于研发“以智驾为核心的 AI 技术”,此后每年的相关投入只增不减。 (2)在团队组织层面,在 2024 年 1 月,小鹏以智驾为核心的 AI 技术团队已超 3000 人,并新招募 4000 名专业人才。同时在组织架构上,据红色星际消息,小鹏在 2024 年 8 月将负责算法研发的技术开发部分拆为三大部门,分别为 AI 端到端、AI 应用、AI 能效,其中 AI 端到端部门负责端到端模型的研发,AI 应用部门负责交付, 以提升端到端自动驾驶演进的效率。

(3)在算力层面,2024 年 7 月,小鹏 AI 算力储备已达 2.51EFlops,同时此后 每年算力训练投入将超 7 亿元,其中在 2024 年峰值算力达到 7000 张训练卡以上。(4)在硬件层面,据 36 氪 Pro 消息,小鹏从 2020 年开始搭建芯片团队,2022 年选择索喜为芯片设计合作方,承包芯片后端设计,目前芯片已经流片,预计 8 月 回片。除芯片之外,小鹏推出了首个驾舱融合的车载计算中心 XCCP 作为 XEEA 3.5 架构的核心计算节点,集成了包括智能驾驶、座舱、仪表、网关、IMU、功放等功 能,实现 40%的成本节约,同时性能提升 50%。

1.3、 XNGP 体验升级,智驾成小鹏“长期马拉松”关键

1.3.1、 阶段目标“全国都好用”,向“全球都好用”进发

XNGP 正从提高城市覆盖度向体验升级转变。小鹏天玑 XOS 5.2.0 下的 XNGP 已经 实现了全国都能开,而下一阶段的目标在于全国都好用,何小鹏提出“全国都好用” 的三大标准:不限城市、不限路线、不限路况。

(1)不限城市:不限城市,指的是 XNGP 覆盖范围扩大至全国所有城市,真正摆脱 高精地图束缚,将高阶智驾引入端到端大模型时代。仅仅是满足“不限城市”,小鹏 汽车就走了接近 20 个月,这也是中国智能驾驶从高精地图,到无图,演进至端到 端全面追逐落地的竞争走势。XNGP 早在 2024 年年初就已具备“全国都能开”的能 力,但为了确保智驾的安全性,小鹏汽车花费半年以上时间展开大规模的实车测试。 截至 2023 年 7 月,XNGP 是行业唯一实车测试验证超 2595 个城市(含中国地级市 及县级市区域),累计测试里程超 756 万公里,且 AI 训练泛化扩充全国所有城市的 智驾系统,以业内罕见的饱和式智驾测试传递对智驾安全的高度重视。

(2)不限路线:不限路线,指的是 XNGP 可应用于国内所有公开道路,“能导 航的地方,就能 AI 智驾”。小鹏汽车用了两年时间,走过了“城市快速路→部分主 干道→所有城市主干道→所有公开道路”的路网覆盖之旅。 从“白名单”到“黑名单”,小鹏开城方案转变。在技术、成本、数据、时间甚至政 策等因素影响下,开城往往不是某个城市“全域开放”,而是“白名单式”开放:只 对城市里部分白名单道路开放,或只招募部分满足一定门槛的白名单用户开放,如 此将会遇到自动驾驶系统仍未覆盖的路段和场景(如掉头、环岛等复杂场景),城市 NOA 功能将会自动降级为 LCC 或退出要求接管。小鹏采取“黑名单式”开放:除 了部分特定场景无法开(如保密区域等),其余全国所有路都能开,且对全量用户开 放。在 XNGP 的最新公测版本中,AI 代驾已经能够自动通过 ETC 收费站。预计到 2024 年第四季度,XNGP 将打通包括 ETC 收费站、停车场闸机、园区内部道路在内 的智驾“断点”,实现真正的“门到门”体验。

(3)不限路况:不限路况,指的是 XNGP 可适应包括掉头、环岛及狭窄小路等 在内的复杂路况,成为首个复杂路况全覆盖的 AI 智驾。以往基于规则代码的智能驾 驶辅助系统,面对环岛、掉头等复杂场景,只能通过工程师大量编写相应的规则代 码来“预先适应”,且通过率极低。而在已量产上车的端到端大模型赋能下,XNGP 有效增强了“脑补”学习能力,可实现“边看边开”,面对复杂多变的环岛、掉头场 景,都能够实时应对。

端到端与无图化帮助小鹏自动驾驶推向全球。小鹏正着手将 XNGP 推向世界,7 月 小鹏宣布面向全球用户发起 AI 天玑 XOS 5.2.0 尝鲜招募,覆盖小鹏 G9、P7i、G6 与 X9 车主各 1000 人,共计 4000 人,实现国内和海外用户首度同步体验,并于 8 月 15 日在德国、挪威、丹麦、瑞典、荷兰、法国等 10 个国家推送。小鹏已在 2024 年进入 30 多个国家,根据小鹏的计划,小鹏将于 2025 年研发全球范围的 XNGP。 依赖规则做到智驾全球化的需要人工编写各地的不同规则,落地成本较高,要实现 全球都能开的自动驾驶,端到端和无图化是必由之路。

1.3.2、 从好用到爱用,小鹏销量拐点或将到来

智驾成为小鹏有力竞争优势,XNGP 功能赢得了用户的认可。何小鹏在 2024 年 8 月 曾表示,在过去 12 个月,小鹏越高阶的车,用户选择智驾版的比例越高,侧面反应 出用户对小鹏智驾能力的认可。2024 年 7 月,小鹏 XNGP 城区智驾月度活跃用户渗 透率达 84%,而 2024 年 6 月小鹏 X9 用户报告显示,小鹏 X9 销售比例的 71%为配 备高阶 XNGP 功能的 Max 版本车型。当智能驾驶的体验能够做到足够优秀,销量的 关键拐点有望很快到来,而目前正在处于变化的起点。用户对小鹏 XNGP 功能认可 不断提高。

从能用、好用到爱用,面向用户体验的 XNGP 有望渗透率进一步提高。小鹏汽车的 智驾处于“全国都好用”的第一阶段,预计 2024 年第四季度实现“全国都好用”第 二阶段的能力。小鹏预计其 XNGP 将在 2025 年底至 2026 年初进入全新阶段,做到 提前应对潜在风险、通行效率优于人驾,大幅减少用户的安全接管与效率接管次数, 同时做到加减速变道超车等操作丝滑流畅,提升用户体验,让用户真正爱用智驾。 面向用户的 XNGP 将有望赢得用户认可,激活消费者智驾需求,渗透率有望进一步 提高。

2、 理想:探索双系统架构,自动驾驶锁定第一梯队

2.1、 无图 NOA 全量推送,向 One Model 进发

理想全国无图 NOA 全量推送实现快速追赶。理想 2021 年开始自研自动驾驶,并于 2021 年 12 月落地高速 NOA 功能,进展处于国内领先水平,而蔚来、小鹏分别在 2020 年 10 月、2021 年 1 月落地高速领航功能,比理想进展快 14 个月与 11 个月,理想的 自动驾驶起步相对较晚。在之后的自动驾驶竞争中,焦点也由“0 到 1”的功能落地 转向“1 到 10”的开城:小鹏于 2022 年 9 月国内首发城市 NGP 功能,打响城市领 航辅助功能落地第一枪,极狐、阿维塔、问界等玩家纷纷跟进。理想紧跟 NOA 开城 浪潮,在 2023 年 4 月宣布“年底前完成 100 个城市的落地推送”,实现自动驾驶领 域的快速追赶。此后理想自动驾驶加速迭代,算法从传统模块化架构演进至分段式 端到端,并向 One Model 演进;在功能上,理想于 2024 年 7 月全量推送全国无图 NOA,并计划三年内实现 L4 级别的无监督自动驾驶。

自动驾驶成为“一号工程”,分段式端到端架构支撑理想无图 NOA 快速上线。在汽 车智能化愈发受到重视的当下,理想已经将自动驾驶开发摆在显著地位。2023 年 6 月,理想在首届家庭科技日上透露其自动驾驶的细节,在感知算法层面采用采用 BEV 大模型、使用 Occupancy 网络、自研神经先验网络(NPN)、训练端到端的信号灯意 图网络(TIN)提高感知准确度,在规控算法层面应用了模仿学习的方法,持续迭代 规控模型,意味着 AD 自动驾驶进入大模型时代,在 AI 大模型算法下,理想做到不 依赖高精度地图的百城 NOA 推送。在使用 NPN 算法以轻图方式推进百城的同时, 理想双线并进,在 2023 年 10 月预研基于分段式端到端架构的无图 NOA,只有感知、 规划与导航三个模块,其中感知与规划均模型化,中间使用规则串行。在该架构下, 理想于 2024 年 7 月全量推送无图 NOA。

以自动驾驶重构核心竞争力,理想智驾赢得用户认可,渗透率快速攀升。将自动驾 驶开发摆在显著地位的理想,在功能实现突破后,也让用户选择智驾车型的热情水 涨船高。据钛媒体数据,理想无图 NOA 发布后,AD Max 选配率显著升高:在到店 试驾环节,用户 NOA 试驾占比从 5 月 23.8%提升到 7 月 46.5%,翻倍提升,用户考 虑购车时更愿意了解体验理想的智能驾驶;在购车环节,用户选购 AD Max 的定单 占比从 5 月份的 37%提升至 7 月份的 49%。单车型来看,7 月,理想 L9 车型 75%的 用户选购 AD Max,理想 L8 达到 56%,理想 L7 达到 65%,L6 也有 22%,在北上广 深,理想智驾车型的比例已经达到 70%,表明理想的智驾功能正在得到越来越多用 户的认可。根据理想的数据显示,面向 AD Max 车型的无图 NOA 的升级覆盖的用户 数量超 24 万,随着智驾功能在用户购车需求中的权重不断上升,重构核心竞争力的 理想有望在智能化的竞争中维持领先。

2.2、 端到端+VLM+世界模型,理想自动驾驶迎来“尤里卡”时刻

2.2.1、 端到端+VLM 构成快慢系统,最早 2024 年底推出

人类思考包含快系统(系统 1)和慢系统(系统 2)。诺贝尔经济学奖得主,心理学 家 Daniel 在《思考,快与慢》中指出人类的思考有两种方式,“系统 1”是快速的、 本能的、自动的、情绪化的、潜意识的、条件反射的;“系统 2”是缓慢的、刻意的、 逻辑的、缜密细致的。大脑通常把很多身体运动相关的功能交给系统 1 来处理,比 如一些本能行为,皮肤的烫伤,迎面飞来的物体,需要我们尽可能快的速度做出反 应;而语言等抽象能力被大脑交给了系统 2 的新大脑皮层,这里可以处理非常复杂 的问题,并且有强可塑性。正常驾驶员开车过程中 95%的时间使用系统 1,5%的时 间使用系统 2,所以人不需要每天学习 Corner Case 就能够学会开车。

在理想的自动驾驶开发框架中,也具有快慢系统。快系统(系统 1)偏直觉,用以处 理大部分常规场景,类似肌肉记忆的应激反应来处理一些直觉、快速响应的事情, 在驾驶场景中可以直观理解为传感器看到场景紧接着车来做出决策和动作;慢系统 (系统 2)偏思考,负责未知场景或者是复杂场景处理,解决各种复杂路况,解决泛 化的问题、未知的问题。系统时时刻刻在运行,并输出两个决策,系统 1 发挥主要 的作用,系统 2 会在复杂场景中起到参考或者咨询的作用,增强系统 1 的决策。

系统 1 为端到端模型,年内实现由感知到规划的统一。在端到端架构下,能够实现 高效的信息传递,减少信息损失;能够实现高效的计算,一次性完成推理的延迟更 低;能够实现高速的迭代,在数据驱动下做到周级甚至是亚周级的迭代。在理想的 架构中,系统 1 是一个端到端的模型,输入的是传感器数据、自车的状态信息以及 导航信息,输出动态障碍物、道路结构、通用障碍物 OCC 以及规划好的行驶轨迹。 端到端的最终目的是为了将传感信息映射为行驶轨迹,另外动态障碍物、道路结构、 通用障碍物 OCC 的输出是为了描绘周边环境并且通过环境信息显示呈现给用户,同 时作为端到端模型的辅助监督。在系统 1 方面,理想称通过 100 万个 Cilps 进行训练, 大概一个月经过十轮左右的训练,基本就可以完成一个无图 NOA 的上限水平。

以知识驱动通往 L4。通过在 L2 时代,自动驾驶面对的是已知的场景,算法上只需 要部分感知环节进行一部分的模型化,在其它部分还是以基于规则为主。随着开城 的进行,最终要做到全国的开放(理想将这视为 L3 时代),自动驾驶需要面临更加 丰富的场景,数据驱动的算法成为主流,算法上的变化表现在所有的模块感知、规 控都逐渐模型化,完整的端到端从感知、跟踪、预测、决策到规划都模型化。而到 L4 时代自动驾驶系统需要处理的都是真实世界未知的场景,即使是端到端算法也不 一定能实现良好应对,理想认为在这种场景中,需要知识驱动,需要自动驾驶具有 常识、能够对真实世界进行理解,这就需要多模态的视觉语言模型或者世界模型。

系统 2 为视觉语言模型(VLM),知识驱动打开通往 L4 之路。“知识驱动”的范式 加入了系统 2 为系统 1 的端到端模型兜底,系统 2 具有一定的理解世界的常识,是 针对驾驶场景特化的大语言模型,可以解决各种各样的 Corner Case 和泛化的问题, 快慢系统结合,最终就能够解决 L4 整体的车端框架。具体来看,120 度和 30 度相 机时刻观察周围的环境,并且与导航地图的图像进行模态对齐,对齐的结果将被输 入到 VLM 的核心——视觉语言模型解码器,同时系统 1 也可以通过 Prompt 问题库 向系统 2 随时提问,一起输入到视觉语言模型解码器中;解码器通过自回归输出对 环境的理解、驾驶的决策建议以及驾驶的参考轨迹,结果返回到系统 1,辅助系统 1 进行轨迹规划。L3 阶段,系统 1 发挥主要的作用,系统 2 起到参考或者咨询特殊情 况的作用;而到 L4 阶段,系统 2 会发挥更多作用,其能力决定了能不能到 L4。

系统 2 实现车端部署,随硬件升级有望实现系统 1 与系统 2 的融合。系统 1 作为端 到端模型参数量只有 3 亿,而系统 2 作为大模型,其参数量达到了 22 亿,比端到端 模型高一个量级。理想为将 VLM 模型部署在车端的 Orin-X 上,进行了一系列优化, 最终将整体的推理性能优化 13 倍,实现 0.3 秒推理一次,车端运行频率是 0.34Hz。 而系统 1 则在十几赫兹高频运行,如果系统 2 能够运行时延更低、判断更加准确, 则有望实现快慢模型合一。理想正在预研将模型做更大、帧率变更高,同时车端算 力芯片也需要进行相应升级以支撑系统 2 的高速稳定运行。

2.2.2、 世界模型+数据闭环助力理想快速迭代

数据驱动之下,验证能力帮助自动驾驶快速铺开。理想通过快速试错的方式快速推 广无图方案,具体流程是先找封闭区域验证范式,一旦跑通立马加上安全兜底策略 进行推广、慢慢铺开,而要做全国范围的无图 NOA,通过铺人力的方式进行验证不 仅成本高,且周期较长。在之前的自动驾驶开发中,是先设计功能再研发,一项项 功能去测试验证;而在数据驱动的时代,理想认为传统的功能验证应当转变为对自 动驾驶能力的“考试”。理想在云端构建了世界模型,配合车端的影子模式进行验证, 一旦通过世界模型的“考试”,立马部署做实车测试,大大加速研发的流程。 重建+生成的世界模型具有良好的泛化性。理想使用重建+生成的方式进行世界模型 的建构,可以解决重建式仿真的模糊拖影问题,也可以解决生成式仿真的幻觉问题, 取长补短,能够生成很多符合真实世界规律但是没有见过的场景,内部也称其为系 统 3。世界模型不仅能够加速自动驾驶验证、缩短研发流程,还可以蒸馏出能够部署 在车端的 VLM 模型,效果好于从头训练的 VLM 模型。此外世界模型能够与数据闭 环进行很好的联动,假设车主接管后,一段 Clip 通过影子模式数据回传云端,云端 世界模型自动生成类似场景,变成错题库,同时在已有错题库中检索或在数据库中 挖掘类似场景,联合训练出新模型;新模型再回到世界模型中进行两次考试:一次 在原场景中,一次在生成的类似场景中,通过自动化的闭环训练模型。

数据方面,理想拥有超过 87 万的车主,形成了全国最大的自动驾驶车队,在过去几 年车队的累计行驶里程已经超过 200 亿公里,截至 2024 年 7 月,理想的智能驾驶累 计行驶里程超过 20.6 亿公里。理想为筛选数据,定义了五星级司机标准,并对用户 进行打分,超过 90 分的车主只占 3%,累计筛选了超过 100 万公里的数据,到 2024 年底可能超过 500 万公里。训练数据以 20-30s 左右的 Clips 形式存在,记录司机驾驶 的完整数据,包括视觉传感、车辆状态、油门刹车等操作信息数据。 在训练方面,端到端本质上是模仿学习,目的是学习行驶轨迹,但仅模仿学习的效 果有限,因此理想使用模仿学习+强化学习的方案,让模型在犯错的时候被惩罚,模 型就会知道什么驾驶行为是错的,训练出来的模型无论是驾驶技巧还是价值观都会 非常正确。

理想端到端+VLM 自动驾驶最早 2024 年底推出。理想的研究团队已经完全通过了正 常的研究验证,在全国无图 NOA 正式推送的时候,向测试用户推送由 300 万 Clips 训练出来的端到端+VLM 的监督型自动驾驶体系,并在 2024 年底至 2025 年初推出 超过 1000 万 Clips 训练的端到端+VLM 的带有监督的自动驾驶体系。

2.2.3、 理想 NOA 实现不限城市、不限道路的通行能力,体验升级

理想当前的无图 NOA 的四大能力:哪里都能开、绕行丝滑、路口轻松、默契安心。

(1)无图无先验,哪里都能开;全国不限城市、不限道路:实时理解能力提升, 不依赖先验信息真正做到哪里都能开。不限道路、不限城市,偏僻小城窄路、乡村 小路、错综山路等都能流畅通行,无车道线、临时施工等路段都不再是问题。

(2)时空联合,绕行丝滑,决策时机更果断:全新时空规划模型的应用让无图 NOA 真正像人一样思考和规划。遇到电瓶车、自行车、行人无规则穿行或车道停车 乱象等复杂行车场景,也能更丝滑、更高效地进行绕行。

(3)路口轻松,上帝视角,通行更高效:理想汽车使用 BEV 视觉模型融合导 航匹配算法,对车道结构和导航特征充分融合,达成了范围更广、信息更丰富的“上 帝视角”有效解决复杂路口走错路的问题实现了超远视距选路的能力。

(4)分米级微操,驾驶更默契,家人更安心:与用户心理安全边界匹配默契更 早更准预测加塞车辆、横穿车辆和骑行人,更精确控制距离,更得当地加速减速。 让全家人在使用智能驾驶时谨慎而不紧张,安全且更安心。 未来的端到端+VLM 还将具备通用障碍物理解能力,超视距导航能力,道路结构理 解能力,拟人的规划能力。

2.3、 组织面向端到端,云端算力大扩充,理想加码自动驾驶布局

2.3.1、 量产和预研双线并行,成立端到端实体组织

明确 RD 与 PD 明暗双线,组织架构上支撑自动驾驶快速迭代。理想 2023 年雁栖湖 会议后明确 RD 和 PD 两条脉络研发智驾,其中 PD 是量产研发与产品交付,负责工 程落地,包括推送给全量用户、千人团测等版本,是市场看得到的明线,在 2023 年 是 NPN 和无图的量产交付,在目前是双系统的交付;RD 是研发,负责预研技术, 是市场看不到的暗线,在 2023 年是端到端双系统的预研,在目前是统一快慢系统以 及 L4 的预研,后者还在探索,可能会整合一套理解加生成合一的超级大模型,通过 蒸馏或者强化学习的方式,把大模型的知识都放到车端。如此滚动开发架构下,理 想只用大约一年多的时间便完成了 NPN、无图、端到端+VLM 的三代迭代。

2024 年 7 月,理想内部成立“端到端自动驾驶”的实体组织,整体超过 200 人,其他 团队成员灵活支援项目。RD 和 PD 两大组共 800 人,其中 PD 包含智能行车、智能 泊车、智能安全等;“端到端”的研发主力部署在算法研发组,其中 RD 下设感知算 法、行为智能、认知智能等组,其中行为智能包含端到端架构、端到端模型、控制 模型等,认知智能包含认知模型、云端模型等组。

2.3.2、 加大投入拓展云端算力,自研芯片补充车端算力

云端算力加速布局,为自动驾驶训练进化提供牢固地基。截至 2024 年 8 月,理想云 端算力规模已达到 4.5EFlops,一年的租卡约 10 亿元,而据理想智能驾驶副总裁郎咸 朋介绍,支撑 VLM 和端到端的训练大概需要几十 EFlops 的算力储备,如果做到 L3 和 L4 自动驾驶,一年光是训练算力的花销大概为 10 亿美金。随着数据和算力的补 充,端到端架构衍生出来的城市智驾,将很可能达到高速上的驾驶体验。 自研芯片补充车端算力。据 36 氪汽车资料,理想从 2023 年 11 月开始大幅推进自研 智驾芯片,自研的主要模块为 NPU,后端设计部分外包给中国台湾的世芯电子,然 后再交由台积电完成制造。目前理想已经设立了约 200 人的智驾芯片团队,芯片将 会在 2024 年内完成流片。

3、 蔚来:NWM 推动架构迭代,有芯有魂构筑智驾长期主义

3.1、 NOP+全量推送,2024H2 上车点到点领航辅助 2.0

开路不开城,蔚来以道路为单位推进自动驾驶落地。2020 年 10 月,蔚来全量交付 高速 NOP,面向搭载 Mobileye EyeQ4 芯片的 NT 1.0 平台车型。相对部分自研的 NOP, 基于 NT2.0 平台的 NOP+是蔚来全栈自研,并于 2022 年底开启推送,但此时只有高 速功能。在城市领航辅助功能上,与其他车企扩展覆盖度的“开城”方式不同,蔚 来专注于对特定路段进行深度优化和精确覆盖,确保其智能驾驶系统在多变的道路 条件下也能提供稳定可靠的服务,按照用户心愿单以及道路开放全国的 NOP+。2023 年 6 月,蔚来车队在城区开启路线验证,10 月在城区开启应用“群体智能系统”。在 2024 年 4 月,蔚来 NOP+在城市区域的领航辅助向所有 NT2.0 车型用户开放,累计 覆盖 726 城,标准是以 90%主干道为最低标准释放。2024 年下半年,蔚来计划推送 点到点的全域领航 2.0,实现点到点的体验,并计划再用一年的时间,解决智驾全国 好用的问题,将城区体验提高到目前高速领航的水平。

NOP+用户数量持续扩大,蔚来自动驾驶的用户认可程度正不断提高。2024 年 3 月 的城区道路可用总里程为72.6万公里,当月城区智能驾驶的行驶里程仅有42万公里, 而这两个数据在 2024 年 7 月分别上涨到了 353.9 万公里与 336 万公里,一方面是 NOP+可用范围的扩大,另一方面是用户对 NOP+的接受度不断提高,开始让 NOP+ 在城市中行驶更多里程。蔚来自动驾驶的用户认可度也在不断增长,截至 2024 年 7 月,NOP+的订阅用户数量达到了 30.80 万人,4 个月中增长超 50%,随订阅用户数 的增长,NOP+的商业闭环正逐步打通。

3.2、 世界模型提高通用能力,群体智能助力数据闭环体系

3.2.1、 从模型化到端到端,世界模型是下一站

由模块化自动驾驶到端到端,蔚来将其划分为三个阶段。 (1)第一阶段是模型化,模型化的优点在于实现数据驱动,但是对工程化的能 力要求较高,要求能够快速训练与快速验证。蔚来在 2023 年中将规控模块中加入 AI 神经网络实现模型化,而当前阶段大部分玩家仅做到感知模型化,在规控端还没 有做到模型化。 (2)第二阶段是端到端,将感知与规控模型连接,不用定义数据结构,解决数 据丢失的问题。端到端下对于数据验证体系的要求将更高。蔚来首先将端到端技术 应用在主动安全功能,如 Banyan 2.6.5 版本中上车的端到端 AEB,以及 2024 下半年 将要上车的端到端 GOA。 (3)第三阶段是大模型,在蔚来的定义中,大模型为世界模型,蔚来期望世界 模型能够对真实世界进行更全、更好的信息表达和预测。蔚来在 2023 年底开始训练 世界模型,预计 2024Q4 会开始推进量产工作。

3.2.2、 当前蔚来感知规划全栈网络模型为 NOP+提供了强大的通用泛化能力

当前蔚来在自动驾驶算法中的感知和规控环节都采用了神经网络赋能。(1)在感知 端,采用融合化的感知网络,占用网络 2.0 通过一个网络识别动静态物体,并采用可 变分辨率的架构解决远近物体识别的问题,同时在云端训练一个大模型进行无监督 的训练,辅助车端模型进行感知。(2)在规控端,引入了数据驱动的分层价值网络, 通过分层搜索的形式,找到最优解。具体而言,通过多模态的注意力网络从感知数 据中筛选出 10-100 种未来的可能性,之后将这些可能性进行更进一步的推演,通过 交互搜索的树,做 7 秒钟的推演,通过经人类偏好数据训练的博弈价值网络来进行 推演,在具体的行为规划和控制过程,采用奖励函数网络给出一个最舒适、拟人化 的结果。最后将结果送入凸优化的空间进行兜底,保证输出的结果安全。感知端和 规控端一起串联形成的蔚来感知规划全栈网络模型构成了通用泛化的基石。

3.2.3、 世界模型能够进行想象重建与想象推演,将推动通用能力快速提升

端到端架构能够充分利用数据,加速迭代,但距离人仍有差距。端到端有两个优点: (1)从人工写规则变成了模型,依靠模型和数据去做迭代就能充分地利用数据;(2) 能自动地抽取信息,减少了很多信息损失,使得对于数据的利用更加充分。但仅依 赖单一端到端的模型的话,时间维度信息的融合和推演都是定长的逻辑,自动建模 长时序信息的能力相对匮乏,不能够预测未来事件并评估其影响,也就是无法真正 理解时空变化,这样的端到端永远无法达到人驾一般舒适、安全与效率。

世界模型能够进行空间理解与时间理解,想象重建、推演能力强大。NIO IN 2024 蔚 来创新科技日上,蔚来正式发布中国首个智能驾驶世界模型 NWM(NIO World Model),即可以全量理解信息、生成新的场景、预测未来可能发生的多元自回归生 成模型。相比于常规的端到端的模型,新的世界模型有三个主要的优势:(1)空间 理解上,通过生成式模型重构传感器输入方式,更加泛化地抽取信息,能够全量理 解信息,对空间理解更加深入。(2)时间理解上,通过自回归模型,自动建模长时 序环境,能够预测接下来的场景。(3)通过生成式无监督的方式,无需人工标注, 对海量数据的利用更加高效。

想象重建能力:从原理上讲,世界模型能够输入一个真实世界的行车视频,输出另 外一个更平行的世界,相当于对整体世界做再一次的重构,变成类似于真实驾驶环 境的原始信息,减少信息的损失,算法的空间理解能力加强,而这一定程度上意味 着它具备了解决这些场景中驾驶问题的能力。从算法端讲,它是自监督的过程,不 太需要数据标注,可以高效地做到千万 Clips 的数据量的训练;同时因为重建的视频, 任务更困难,监督信息更多,使得模型收敛速度更快。

想象推演能力:从原理端讲,世界模型能够持续地去想象推演,持续地以自回归的 方式去输出视频,“想象”时间维度上的变化,在功能方面,具体来说,NWM 可以 在 0.1 秒内,推演 216 种可能发生的轨迹、寻找最优路径,下一个 0.1 秒,NWM 会 根据外界信息输入去再生成新的 216 种可能性,继续往前开;还能基于 3 秒钟视频 的 Prompt 输入,生成 120 秒想象的视频。

蔚来计划将世界模型进行车端部署,将其结果作为预测参考输入下游规划模型,在 未来有望直接输出轨迹去控制车辆。

3.2.4、 群体智能助力数据闭环搭建,生成式仿真进行快速闭环测试

通过群体智能与生成式仿真能够满足世界模型训练的数据需求。世界模型作为多元 自回归生成模型,具有庞大的数据需求,特别是对长尾数据和闭环数据的需求更多, 训练一个世界模型,需要千万级 Clips 以上的真实数据训练。蔚来基于群体智能和生 成式仿真为核心来满足更大的数据需求。通过群体智能系统,挖掘日行千万公里的 真实场景可成为正负样本的训练数据,筛选重点场景后验生成式仿真,进行三维重 建,最终产生更多新场景,加速模型的快速训练迭代。

群体智能:在数据收集方面,蔚来通过量产车队收集数据,目前 NT2.0 平台的车型 总数在 20 多万台,同时在车端的四颗 Orin-X 中,有一颗专门留给群体智能训练, 能够筛选掉 99%无用数据并经过复杂自动化流程处理后回传云端,使车辆不光在智 驾状态下,在非智驾状态下也能获取到有效数据。群体智能每月能够获取 500 万+接 管数据,共分析 4785 万接管案例,捕捉的高价值 Clips 超过 1000 万。在道路验证方 面,蔚来群体智能架构,能够在量产车上分布式验证用户行驶过的道路以及使用过 的智能驾驶功能,每月实车验证里程超 2000 万公里,单一路线 5 次验证自动准出, 加速实现智能驾驶系统升级迭代,保证智能驾驶用户体验持续进化。

生成式仿真:与 NWM 配套,蔚来开发了仿真器 NSim(NIO Simulation),在整个数 据链路上,车端的群体智能+NSim 理论上可以给 NWM 提供源源不断的数据。NWM 基于真实世界视频进行重构和推演,进入到 NSim 重新编辑,分解出背景中静态的、 动态的信息,在 NSim 中也可以看到并且调整深度、法向量的信息。通过 NSim 可以 切换到任意角度,分析环境细节信息,可以根据所需去动态地编辑物体,也可以让 自车有新的行车轨迹驾驶。NSim 可以对 NWM 推演的每一种轨迹与对应的仿真结果 做对比,给到更多数据给到 NWM 训练,让输出的智驾轨迹和体验更安全更合理, 更高效。

在训练方面,蔚来认为,如果想要做端到端大模型,至少需要万卡级别的算力集群, 截至 2023 年 9 月,蔚来智能计算集群总算力规模为 1.4EFlops,预计目前算力规模更 高。蔚来还建立一套高性能计算平台,可支撑日间峰值吞吐达到 200 万次的任务请 求,并且同时支持 1.5 万个节点的并发,自研容量 10PB 的高速分布式缓存系统,支 持大规模并行的训练。此外,蔚来也已打通边缘计算能力,使得整个车云算力联合 调度,截至 2024 年 7 月,蔚来整体端云算力高达 306.9EOPS,是全国最大的端云算 力集群,分布式计算也是蔚来算力布局的重要构成。

3.3、 软硬协同能力不断加强,迈向端到端大模型时代

3.3.1、 自研神玑 NX9031 即将上车,传感、计算硬件支撑智驾长期主义

神玑 NX9031 已流片,深度软硬一体有望大幅提升用户体验。2020 年开始,蔚来逐 步组建了超800人芯片团队,负责人华为海思出身。自研智能驾驶芯片“神玑NX9031” 已经流片,制程为 5 纳米,拥有超过 500 亿颗晶体管,该芯片采用 32 核大小核 CPU 架构,采用 LPDDR 5x 内存,速率达到了 8533Mbps,内置高动态范围高性能 ISP, 具备 6.5G Pixel/s 像素处理能力,处理延时少于 5nm,单芯片性能相当于四颗行业旗 舰芯片的能力。神玑 NX9031 将于 2025Q1 首搭 ET9,实现了硬件与软件、算力与算 法的紧密融合,有能力支持蔚来智能电动汽车进一步提升用户体验。

蔚来自动驾驶面向未来,软硬件支持长生命周期迭代。汽车智能化进展飞速,产品 的生命周期在缩短,产品生命力也逐渐成为影响消费者的购车选择的因素之一。在 智能驾驶方面,蔚来认为其软件层面架构的生命周期应达到 10 年以上,硬件层面应 能够坚持两代平台,而现在每代平台的间隔期约 3-4 年。蔚来在软件层面统一架构, 做到软件部分有 85%的模块级复用度,在硬件层面采用高性能传感器与计算平台, 软硬结合之下,蔚来车型生命力得以延长,支撑蔚来的“长期主义”布局。 Aquila 蔚来超感系统配置丰富,ADAM 计算平台算力出众,能够支撑自动驾驶的后 续更新。(1)Aquila 蔚来超感系统:拥有 33 个高性能感知硬件,包括 1 个等效 300 线的 1550nm 激光雷达、7 颗 800 万像素高清摄像头、4 颗 300 万像素高感光环视专 用摄像头、1 个增强主驾感知、5 个毫米波雷达、12 个超声波传感器、2 个高精度定 位单元和 V2X 车路协同。(2)ADAM 计算平台:ADAM 集成了 4 颗英伟达 Orin X 智能驾驶芯片,总算力达 1016TOPS,是目前汽车智能驾驶算力的天花板;同时 ADAM 还集成 1 颗最新的高通骁龙 8295 智能座舱芯片,能够实现智驾、智舱和整车控制最 大 256TOPS 算力共享,且智驾和座舱之间跨域数据带宽从千兆大幅提升到 16Gbps, 能够支撑多模大模型的端侧部署。NT2.0 平台车型都已搭配四课 Orin-X 的 ADAM 平 台,在未来的 NT3.0 平台,会有神玑 NX9031 与英伟达 Orin-X 两种芯片配置,在算 法快速演进的智能驾驶潮流中提供牢固的硬件平台基础。

3.3.2、 NADArch 升级 2.0,统一架构延长生命力

蔚来自动驾驶架构升级。NADArch 进化。世界模型 NWM,包括端到端的主动安全 模型,以及相应的处理机制和安全机制,以上构成了蔚来算法的第二代架构 NADArch 2.0,具体功能收敛到两个产品:点到点的全域领航 2.0 与智能安全辅助 2.0。蔚来坚 持 NT2.0 平台车型统一架构,统一架构最直观的优点是降低了后续的维护、运营、 迭代的成本,同时能够大大延长架构的寿命。统一的架构下能够提高复用程度,如 乐道品牌与蔚来的软硬件同架构,底层架构相通,可以数据共享。

3.3.3、 重组智驾研发团队,组织架构上面向端到端大模型

蔚来自动驾驶业务主要分为三大团队。目前蔚来智驾团队约有 1500 人,自动驾驶业 务共有四个团队,分别为算法团队、硬件团队、操作系统和数据安全团队,其中算 法团队由蔚来智能驾驶研发副总裁任少卿负责,下设感知部、规划与控制部、环境 信息部、方案交付部、地图定位部等多个部门。 蔚来智驾研发部完成架构调整。2024 年 6 月,蔚来智驾研发部新成立了大模型部(负 责端到端模型的研发工作)、部署架构与方案部(负责和车端相关的整体算法研发、 架构设计和功能交付)、时空信息部(负责车端和云端的地图信息相关的算法、模型 开发及服务),撤销了原来的感知部、规划与控制部、环境信息部及方案交付部。 从组织架构上面向端到端,或将加速蔚来自动驾驶迭代。调整前,蔚来智驾研发部 按照感知、地图、数据、规控等模块进行分部门管理,再以项目为核心串联起各个 垂直的算法部门进行交付,算法模块部门是实体组织,项目则是横向的虚线组织。 架构调整后,蔚来智驾的核心业务变成了两块,一块是云,一块是车,分别由“大模 型部”、“部署架构与方案部”负责,前者负责创造出一个本身更好的基础模型,去支 持未来车端的迭代,后者负责车端自动驾驶的产品化与交付,工作流程上则以项目 为中心组合各方,将横向组织纵向化。新架构下,将有效减少内部沟通阻力与资源 损耗,集中力量实现自动驾驶的高效迭代。

4、 管中窥豹:从三家新势力车企进展,看自动驾驶发展趋势

4.1、 趋势一:城区智驾从扩大覆盖度到优化体验快速转变

小鹏、理想已经实现全国有路就能开、蔚来将于 2024H2 做到点到点全域领航,覆 盖度提升的主线渐暗,体验提升主线渐明。2023 年,城市领航辅助成为各家车企竞 相布局的方向。历时将近一年的开城角逐之后,理想与小鹏先后全量推送无图化的 城市领航辅助功能,能够做到全国所有城市道路都能开,蔚来采用道路验证开通的 方式,在 2024 年 6 月城区道路可用总里程覆盖 353.9 万公里,截至 8 月 15 日仍是 353.9 万公里,城市 NOP+功能或已临近上限,但也几乎做到有路就能开。城区智驾 实现全覆盖后,下一步就是优化在城区智驾的体验。

全国都好用成为下一角逐方向,车企着力提升用户智驾体验。为使消费者愿意为自 动驾驶功能付费,良好的体验必不可少。小鹏与理想计划都在 2024 年内实现全国都 好用的用户体验,而小鹏已经在“第一阶段”;蔚来也将在未来一年之内解决智驾好 用的问题。在能够将用户群体覆盖到全国范围之后,下一步就是如何能够在全国范 围的市场中吸引用户,车企马不停蹄角逐下一场,以期能够用不断丰富、完整的功 能打动用户,在自动驾驶竞争中把握主动权。提升体验的方向包括减少道路断点、 实现门到门体验,减少接管次数、驾驶更符合人性等等,而自动驾驶往往是“行百 里者半九十”,越往后的挑战越大,需要更强有力的支持与工具。

4.2、 趋势二:认知智能辅助端到端大模型上车

端到端大模型成为无图城市领航辅助落地的最大功臣,逐渐成为自动驾驶架构转变 的共识。小鹏、理想、蔚来在落地无图城市领航辅助时,都选择了端到端的路线, 三家目前采用的都是分段式的端到端,而理想与蔚来都在向 One Model 进发。总体 来说,在端到端范式下能够实现数据驱动,迭代的速度将会快于人工修改代码的模 块化方案。在端到端大模型落地的过程中,数据、算力两要素同样缺一不可,数据 方面不仅要求有足够的数据采集能力,还要求能够形成高效的数据闭环体系将数据 高效利用,而算力为训练提供基础,端到端自动驾驶的迭代已成为系统工程,对车 企研发能力、组织架构等都提出挑战。

认知智能与端到端相结合,各家车企探索更高级自动驾驶之路。在算法方面,小鹏 有 XBrain 大语言模型,理想有 VLM 系统,蔚来则有世界模型。各家的思路相近: 仅靠端到端来实现自动驾驶仍会有难以处理场景,因而需要这些认知智能系统赋予 自动驾驶处理复杂场景甚至未知场景的泛化能力。在当前端到端成为共识,但是对 于未来的探索仍在持续。为更好探索端到端架构下的自动驾驶演进方向,各家车企 也进行了组织架构的变革,提高组织的应对效率。

4.3、 趋势三:布局硬件进行垂直整合,智驾降本成为方向

布局芯片等关键零部件,硬件的垂直整合提上日程。无论是蔚来、理想还是小鹏, 都在进行智驾芯片的探索,进展快的如蔚来神玑 NX9031,不仅在硬件上已经流片, 还已经为神玑芯片提供了底软、仿真、虚拟化、OS、中间件、工具链等一整套能力, 小鹏自研的芯片也已经流片,理想自研芯片也将在年内流片。自研芯片不仅能够形 成更加高效快速的迭代体系,还能够在长期降低硬件成本,更重要的是基于自研硬 件能够形成一套自主可控的体系。在其他硬件上,车企也纷纷加快自研节奏,进行 垂直整合。

智驾降本即将成为明线,智驾商业化盈利时代有望到来。在算法方向基本确定、自 动驾驶能力逐步企稳、体验正取得消费者认可之后,智驾降本的前景也将逐渐明朗。 当前小鹏与理想采取的是硬件付费、软件标配的形式:消费者选择硬件上能够支持 城市领航辅助等高阶智驾的 Max 版车型,无需额外付费就能够使用城市领航辅助。 其中小鹏 Max 版(支持城市领航辅助)比 Pro 版(不支持城市领航辅助)的价格要 高 1.2-2 万元,而理想的 Max 版(支持城市领航辅助)比 Pro 版(不支持城市领航辅 助)的价格要高 2.8-3 万元,即使理想的价格中仍包含其他配置,仍有较高的选择成 本。蔚来采取的是硬件标配、软件付费的形式:全系车型标配支持城市领航辅助的 硬件,但是软件的开通仅能够按月订阅,每月 380 元。但是相对于自动驾驶研发、 维护,算力租赁等成本支出来说,车企仍较难实现自动驾驶软件盈利的商业模式, 通过硬件垂直一体化等方式实现智驾降本或将成为明线。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告