数据、算力+底层 AI 技术的进一步发展有望助力端到端快速发展与普及。
端到端概念最早源于通信领域。其基本含义是网络只负责为终端之间提供连接,无论终端之间 的连接距离、连接机器数量、连接系统与路线是怎样的,两端之间一定要建立联系,连接建立 后即表示端到端的连接已完成。 底层 AI 技术的逐渐成熟,有望带来自动驾驶技术新一轮发展与普及。在人工智能领域,基于 深度神经网络的端到端是普遍使用的方法。深度学习具有出色的模式识别和特征提取能力,主 要用于图像分类、目标检测、人脸识别、图像分割、视频分析等场景。在各种 AI 翻译、语音转 文字等 AI 应用中,基本都使用了端到端的思想,原始数据被送进一张神经网络中,经过一系列 运算后给出最终结果。除了以上场景,我们认为智能驾驶也是 AI 技术中重要的应用场景,并 且出于安全性、稳定性等要求,在底层 AI 技术逐渐趋于成熟之时,端到端赋能的自动驾驶技 术有望新一轮发展与普及。 2023 年以来,端到端在自动驾驶学界与产业界的热度快速提升。学术研究方面,2023 年 6 月, 上海人工智能实验室提出的 UniAD (Unified Autonomous Driving)获 CVPR 2023 最佳论文, 行业对于端到端的关注度开始提升。产业落地方面,特斯拉 FSD(Full Self Driving)V12 全面 升级端到端技术架构,国内以鸿蒙智行、小鹏汽车、理想汽车为代表的主机厂以及华为、元戎 启行、商汤绝影、百度等为代表的智能驾驶技术公司纷纷投入端到端系统研发,量产上车规划 也陆续对外披露。
传统的自动驾驶架构可以理解为分模块架构,包含感知(Perception)、定位(Localization)、 预测(Prediction)、决策与规划(Decision and Planning)、控制(Control)等。感知端 输入摄像头、激光雷达等传感器信息,能够感知到车辆周围的障碍物、车辆、车道线、红绿灯 等元素;然后感知信息会进一步汇总传递给规划模型,规划模型规划出车辆最佳行驶路线;再 交给控制模块,实现车辆最终的控制。
传统的模块化架构将自动驾驶分为多个子模块,具有较高的稳定性与可解释性。传统自动驾驶 架构各模块有独立的算法,例如目前市面上大部分智驾系统中的感知模块使用的是神经网络, 处于下游的规划模型需要依赖工程师编写大量代码去制定行驶规则。这种架构的优势在于独立 开发利于分工,出现问题时便于分模块检查与解决,具有较高的稳定性与可解释性。 分模块的局限性在于:首先,基于人为制定规则的方式无法穷尽所有的道路状况,特别是极端 状况(corner case)下,会提升决策规划控制的难度。其次,分模块方案的信息流转的层级 较多、传递的链路较长,所以信息失真情况会更严重,各模块之间传递的信息会出现有损压缩, 传递时会累计误差,还会面临并行模块信息相互干扰的问题。
与传统自动驾驶算法结构相比,端到端定义尚未统一,其主要特点在于深度学习的全面使用与 数据驱动。 深度学习是一种机器学习方法,其目标是通过构建多层神经网络来模拟人脑的工作原理,让机 器能够从大量的数据中自动学习和提取特征,从而实现智能化的数据处理和决策。神经网络是 深度学习的核心组成部分,深度学习采用多层神经网络模型,其中包含输入层、多个隐藏层和 输出层。 输入层:负责接收原始数据(如视频、图像等),并将其转化为可以被隐藏层处理的格式。 隐藏层:主要是对输入数据应用一组权重和偏差,从输入数据中提取对当前任务更有意义的高 级特征,根据任务复杂程度,可以选择单层或者多层隐藏层。 输出层:输出隐藏层的处理结果。
神经网络的主要训练过程包括前向传播与反向传播,可以在训练过程中实现自行学习与改进。 前向传播是将输入数据通过神经网络生成输出的过程。它涉及计算网络每一层中每个神经元的 输出,通过将权重和偏差应用于输入并通过激活函数传递结果来完成。反向传播通过计算损失 函数的梯度,反向传播允许神经网络以减小训练过程中的整体误差或损失的方式更新其权重。 深度神经网络的训练过程表明其可以直接从数据中学习特征,并自行学习和改进,在自动驾驶 算法中可以去掉人工编写的规则,实现数据驱动。神经网络更适合处理大型数据集,与传统机 器学习需要手动提供特征不同,我们可以直接向算法投喂高水平人类司机真实的驾驶视频数据, 通过反复训练使算法理解并学习高水平司机的驾驶习惯,输出正确的行驶轨迹,从真实数据中 学习如何开车,最终实现数据驱动。 综上所述,通过神经网络实现的端到端自动驾驶优势包括:①完全基于数据驱动进行全局任务 优化,具备更好、更快的纠错能力;②传统分模块的架构被进一步压缩,能进一步减少模块间 信息的有损传递、延迟和冗余,避免误差累积,提升计算效率;③泛化能力更强,由 Rule-based 算法转向 Learning-based,具备零样本学习能力,面对未知场景仍可正确决策,智能驾驶的上 限会比传统架构更高。
目前端到端自动驾驶的定义可以简单分为狭义端到端和广义端到端。狭义端到端:传感器数据 进入神经网络处理后,直接输出方向盘、油门、刹车等执行器的控制信号,该模式通过单一神 经网络模型实现,是严格意义上的端到端。

广义端到端:广义上的端到端具有两个特点①信息无损传递;②可以实现数据驱动的整体优化。 从广义角度理解端到端,可以看到目前主流的方案仍有差异。主要方案包括通过神经网络模型 实现感知与决策规划,不包括控制模块;感知和决策规划使用神经网络,模块之间仍有人工设 计的数据接口等方式。
从端到端的最终实现上,我们认为通过①感知“端到端”,②模块化“端到端”,再到③One Model/单一模型“端到端”是一种相对平滑的过渡形式。而当前感知“端到端”已经是主流的 感知模型,展望后续技术发展,我们认为自动驾驶算法向“端到端”收敛,有望成为行业的一 大趋势。 不同迭代阶段之间的区别: 感知“端到端”:当前的主流感知算法路线大多数都是用神经网络模型,通过基于多传感器融 合的 BEV(Bird Eye View,鸟瞰图视角)+Transformer 基本实现了感知模块的端到端,感知输出 检测结果的精度及稳定性相对之前的感知方案都有比较大的提升,但在决策规划控制模块仍然 以 rule-based 为主1。 模块化“端到端”:与感知“端到端”相比,感知端算法没有太大变化,决策规划控制模块有 望通过深度学习实现,取代原有的 rule-based 方案,从这一阶段开始,端到端的雏形逐渐形成。 并且感知与决策规划控制模块之间的数据传递有望由人为定义的结果抽象为特征向量,避免数 据损耗与误差累计等问题,决策规划控制模块的综合模型基于特征向量输出运动规划的结果2。 One Model/单一模型“端到端”:这一阶段不再有感知、决策规划等模块的明确划分。从原始 信号输入到最终规划轨迹的输出直接采用单一深度神经网络实现。One Model 可以基于强化学 习(Reinforcement Learning, RL)或模仿学习(Imitation Learning, IL)的端到端模型,也可 以通过世界模型这类生成式模型衍生3。