简单的 One Model 端到端方案在自动驾驶发展早期就已 经出现。
NVIDIA: DAVE-2 (2016)
2016 年 4 月,英伟达团队发表了一篇名为 End to End Learning for SelfDriving Cars 的论文,展示了基于 CNN 的端到端自动驾驶系统 DAVE-2。 该系统通过一个卷积神经网络(Convolutional Neural Network, CNN)处理 车辆前方的摄像头图像,并直接输出转向角度。训练过程中,模型通过模拟驾驶 数据进行学习。该系统在不同类型的道路上展示了出色的驾驶性能,包括城市道 路和乡村公路。Demo 展示了车辆在复杂的道路环境中能够平稳驾驶,并对不同 的交通状况进行适应。 DAVE-2 系统展示了端到端神经网络在自动驾驶中的巨大潜力,打破了传统 的模块化自动驾驶系统框架,是近年来端到端自动驾驶领域的开创性工作。这项 研究证明了通过直接从数据中学习驾驶策略,可以大幅简化系统设计,并提高适 应性和鲁棒性。DAVE-2 为后续端到端自动驾驶研究奠定了基础,推动了该领域 的快速发展。

Wayve: Learning to Drive in a Day (2018)
Wayve.AI 是一家英国的自动驾驶公司,2017 年成立于剑桥。2018 年 9 月, Wayve 发表了一篇名为 Learning to Drive in a Day 的论文。Wayve 展示了其自动 驾驶系统在短时间内学习驾驶的能力。与 DAVE-2 主要基于 CNN 的模仿学习方 法不同,Wayve 结合了强化学习和深度学习算法,强化学习能够让系统通过试错 过程自我改进,适应不同的驾驶环境和情况,而不仅仅依赖于预先收集的大量数 据。该系统能够在仅一天的训练时间内,实现在复杂的城市环境中进行驾驶的能 力。Wayve 的 Demo 展示了车辆在伦敦的开放道路上成功应对各种交通状况的表 现,包括红绿灯、行人和其他车辆。
Wayve 的研究展示了基于深度强化学习的端到端系统的快速适应能力,证明 了端到端学习在处理复杂城市道路驾驶任务中的有效性。这项研究为自动驾驶系 统的灵活性和效率提供了新的视角,推动了快速部署和适应的可能性。
comma.ai: OpenPilot (2017)
comma.ai 是一家成立于 2015 年的美国自动驾驶公司,早期 comma.ai 通过手 机的后置摄像头和手机计算芯片(骁龙系列),以及 comma.ai 研发的 Openpilot 自动驾驶软件(2017 年首次发布,持续迭代),实现了性能优异的 L2 级自动驾 驶,2020 年曾被 Consumer Report 评为性能最佳的辅助驾驶系统,超越特斯拉 Autopilot 和凯迪拉克 SuperCruise。其与多达 200 余种车型的适配性,为 L2 级辅 助驾驶的大规模推广提供了一种后装的解决思路。 2020 年后,OpenPilot 逐渐转向端到端神经网络模型,被认为是第一个大规 模商业化的端到端自动驾驶产品。
同时,OpenPilot 是一个开源项目,通过开源和社区驱动的方式,comma.ai 在推动自动驾驶技术的普及和创新方面发挥了重要作用。其开放的开发平台和工 具使得更多开发者能够参与到自动驾驶技术的开发和改进中 。 遗憾的是,OpenPilot 并未公布其训练数据和训练细节。上海人工智能实验 室深度解析了 OpenPilot 的 Supercombo 端到端神经网络模型,并给出了其参考 架构和改进点。
2023 年以来,模块化端到端和 One Model 端到端都有了重大的进步。UniAD 提出了革命性的模块化端到端方案,成为这一技术路线的基准范式;Wavye 的 生成式世界模型 GAIA-1,以及视觉 - 语言 - 动作模型 LINGO-2 可能是未来 One Model 端到端的重要基础;FSD v12 作为一个可以感受的产品让端到端技术路线 出现在更多人的视野中。本节将呈现这几个重要进展的技术方案。
OpenDriveLab: UniAD (2023)
UniAD 代表了一种创新的全栈 Transformer 端到端模型设计,它通过集成多 个查询组(query groups)来实现。在该模型的架构中,我们可以观察到两个关 键的感知模块和两个核心的预测模块,以及一个至关重要的规划模块。这些模块 的设计遵循了 Transformer 架构的先进理念,确保了高效的信息流和处理能力。

在 UniAD 中,TrackFormer 模块通过 query 与 BEV 特征的交互,实现了对 周围环境的精确感知。MapFormer 模块则通过 Map query 更新,进一步丰富了 环境特征。MotionFormer 模块利用 Motion query 与环境特征和 BEV 特征的交 互,预测了未来轨迹,为决策提供了重要信息。而在 TrackFormer 中,特定的 ego-vehicle query 用于表示自车属性,为规划任务提供了关键信息。规划模块将 MotionFormer 更新后的 ego-vehicle query 与 BEV 特征进行深度交互,实现了对 环境的全面感知和预测,从而优化规划任务。
Wayve: GAIA-1 (2023)
在人工智能领域,GAIA 模型以其创新的生成式世界模拟技术,为自动驾驶 技术带来了革命性的突破。GAIA-1,作为该系列的最新版本,通过整合视频、文 本和动作输入,显著提升了生成逼真驾驶视频的能力。它不仅能够精确控制自动驾驶车辆的行为和场景特征,而且其多模态特性使得 GAIA-1 能够根据各种提示 模态和组合生成多样化的视频内容。 GAIA 模型的问世,标志着人工智能在模拟物理世界方面的重大进步。它能 够生成长达数分钟的驾驶视频,这些视频细节丰富,严格遵循场景特征和车辆行 为的预设规则。这一技术突破极大地提升了自动驾驶技术的决策力和安全性,有 效解决了人工智能在预测和导航复杂现实世界交互时面临的诸多挑战。
Wayve: LINGO-2 (2024)
Wayve 公司最新推出的 LINGO-2 模型,为自动驾驶技术带来了重大突破。 这项工作首次将视觉 - 语言 - 动作融合的大模型搭载上车,并开始商业化测试。 视觉 - 语言 - 动作大模型构建了自动驾驶 AGI 的新范式,显著提升了 AI 驾驶系统 的可解释性,使 AI 的决策过程更加透明,也将 AI 用于自动驾驶的能力提升到新 的水平。LINGO-2 模型不仅能够执行驾驶任务,还能用自然语言与用户进行沟通, 解释其决策背后的原因。例如,当 AI 决定减速时,它会向用户解释是因为检测到 前方有行人过马路,从而增强用户对自动驾驶系统的信任感。 此外,LINGO-2 模型还具备根据用户的自然语言指令调整驾驶行为的能力。 用户只需发出简单的指令,如 " 靠边停车 " 或 " 右转 ",AI 就能理解并执行,同 时解释其决策依据,展现出高度的互动性和智能性。LINGO-2 模型还支持视觉问 答功能,能够回答用户关于场景和驾驶行为的问题,展示其对周围环境的深入理 解和安全导航的能力。例如,当用户询问为什么左转时,AI 会用自然语言解释 “ 左 转可以更快到达目的地 ”。
Tesla: FSD v12.3(2023)
Tesla 宣称从 FSD12.3 版本开始采用端到端自动驾驶方案。相比之前的非端 到端版本,其在复杂场景上体现出更强的泛化能力,与其他车辆和行人的交互 体现出更多的灵活性,驾驶风格也更加贴近人的习惯,其总体表现已经远远超 过 Rule-based 决策规划模块的技术方案。业内普遍认为这些表现的巨大提升很大 程度地建立在决策规划模块化基础方案之上,但是目前尚无法具体判断出 Tesla 的实现方案处于本报告定义的 “ 决策规划模型化 ”“ 模块化端到端 ” 或者 “One Model 端到端 ” 中的哪一个阶段。 特斯拉自动驾驶总监 Ashok Elluswamy 在 CVPR 2023 上分享了团队在 World Model 方向的研究进展。该研究很可能成为 FSD 下一阶段 “One Model 端 到端 ” 自动驾驶方案的基础,并且有潜力进一步发展成为自动驾驶以及人形机器 人通用的底层模型。