虽然行业内对于端到端的发展趋势已经形成普遍共识,但目前已经或者接近 量产的方案还停留在 “ 决策规划模型化 ” 阶段,距离模块化端到端或 One Model 端到端自动驾驶量产落地还有距离。本章将集中讨论端到端方案在落地中面临的 挑战。
正如本报告第一章所提到的,在端到端的概念下,存在不同结构的端到端神 经网络,不同公司和研究机构可能采用不同的技术路线和模型设计,例如 “ 模块 化端到端 ” 采用监督学习的训练范式,“One Model 端到端 ” 可能更加侧重自回归 和生成式的训练范式,以上两种路线都有公司押注。 虽然在理论上,每种技术路线都有其优劣势,但其最终对用户体验的价值如 何、工程开发代价如何等关键问题,在当前还没有共识。造成当前技术路线分歧 的原因,除了行业还处于发展早期以外,最关键的原因是:行业内尚未出现可供 参考的最佳实践案例。
特斯拉在 2021 年 和 2022 年举办的两场 AI Day 基本确定了 BEV 和 Occupancy Network 的网络结构的标准,而其端到端的网络结构至今为止还没有 对外披露。开源社区的标志性成果 UniAD 尽管提供了一个公开的技术架构,但 UniAD 尚未真正经过量产交付的验证,特别是与其配套的模型验证和评测方案、 数据采集和处理方式还没有明确,目前,UniAD 也无法作为确定的终局技术架构。 我们预判,在未来 1~2 年内,随着更多公司和研究机构在端到端领域加大投 入并推出产品而逐渐明晰,技术路线将会逐渐收敛。
端到端自动驾驶是数据驱动的模型,因此,训练数据的重要性前得到所未有 的提升。端到端数据的挑战可以分为数据量、数据标注、数据质量和数据分布几 方面。 首先是训练端到端所需的数据量。特斯拉在多个场合中提到,其 FSD 训练需 要用到上千万个视频片段,假设每个视频片段时长为 30~60 秒,以此为参考,训 练端到端模型最起码需要几万小时的视频数据。目前规模最大的公开数据集包含 大约 1200 小时数据,这意味着,要拿到端到端研发的入场券,自动驾驶公司还 必须使用更大规模的非公开数据。
Wayve 研发的生成式世界模型 GAIA-1 使用了该公司在过去 4 年内采集的 4700 小时驾驶数据训练;许多国内的自动驾驶公司表示,端到端第一阶段研发用到的数据量约为几千小时。这些数字似乎表明,端到端所需要数据量并不是大到 难以想象,几乎所有拥有车队的自动驾驶公司都可以达到这一水平。然而,真正 的挑战来自于为提高模型性能所需的海量数据。小马智行 CTO 楼天城表示,现阶 段,训练出一个一般性能的端到端模型,自动驾驶的数据量已经不是一个问题; 但是要训练出一个高性能的端到端模型,对数据的质量要求可能是几个量级的提 升,这是自动驾驶行业都会面临的挑战。
第二是数据标注需求的变化。长期来看,端到端由于没有感知 - 决策规划的 中间接口,面向感知的标注需求将会转向面向规划的标注需求,对现有的包括 3D 目标检测、车道线检测、路面标识语义分割等感知模块的真值的标注需求将大大 减少。但短期内,大部分公司,特别是采用 “ 模块化端到端 ” 架构的公司,依然 会对感知的中间结果做标注和监督,提高训练的效率。 第三是对数据质量的要求。一位自动驾驶工程师提到,他们在训练端到端模 型时发现,原本积累的路测数据只有 2% 可以用。特斯拉用来训练端到端模型的 几万小时自动驾驶数据,是从超过 20 亿英里(截至发稿)的 FSD 里程数据中挖 掘出来的。对于端到端自动驾驶来说,其数据质量问题还叠加了更复杂的因素 —— 对人类驾驶员能力的要求。自动驾驶系统的理想目标是像老司机一样开车,而很 多驾驶员的驾驶行为并能达到 “ 老司机 ” 的水平,这就需要一套有效的数据管理 和处理流程,仅提取老司机所驾驶的车辆在特定场景下的高质量数据,这也增加 了数据获取的难度。
第四是数据分布问题。全面和多样化的数据对于端到端自动驾驶模型至关重 要,但多样性很难用量化方法来掌握。数据的分布需要考虑诸多因素,例如环境 因素包含各种天气和光线、道路情况。与特斯拉不同,许多公司面临的最大难题 是缺乏数据采集能力。即使是车企采集的数据也往往是在受控环境中获得的,这 些数据可能无法完全代表真实世界中的复杂情况。真正能够反映真实世界的复杂 性的数据,应该是由大量用户在无意识中采集的。更有挑战的问题是,如何调整 长尾场景(Corner Case)在训练数据中的分布比例,目前行业还没有一套行之有 效的方法论,有专家认为,在解决数据分布的问题上,行业在模型化决策规划方 面的探索会有很大价值。 合成数据可以解决上述部分问题。合成数据可以低成本增加训练数据的规模、 泛化场景增加多样性、低成本生成长尾场景。目前,很多企业已经开始通过混合 使用合成数据和真实数据来提高系统性能。 另一个亟待探索的方向是建立数据共享平台。目前,数据共享仍处于起步阶 段,真正产生价值的数据共享平台可能需要一个极其强势的第三方来发起。尽管 部分企业已经开始尝试内部数据共享,但整个行业内尚未形成统一的数据共享标 准和惯例。一些地方政府已经开始出台相关规定,以促进数据共享和智能交通的 发展。
随着自动驾驶系统的 AI 模型化程度越来越高,其对训练算力资源的需求越 来越大。尽管大部分公司表示 100 张大算力 GPU 可以支持一次端到端模型的训练,但这并不意味着端到端进入量产阶段只需要这一数量级的训练资源。 量产研发阶段更需要考虑团队分工和模型迭代效率问题,企业所拥有的训练 算力越大,完成端到端模型训练的时间就越短,越能抢占市场先机。另外,当企 业拥有更大训练算力时,更有可能研发出性能更强(大多数时候意味着云端模型 的参数量更大)的自动驾驶端到端模型,也会提升部署在车端的模型的能力。 特斯拉近年来不断增加训练算力投入,2023 年底已经跻身英伟达 H100 头部 客户之列。在 2024Q1 财报电话会上,特斯拉表示,公司已经有 35000 张 H100 GPU,并计划在 2024 年内增加到 85000 张 H100 以上,达到和谷歌、亚马逊同一 梯队。此前,特斯拉还部署了规模更大的 A100 GPU 训练集群,其实际训练算力 投入在自动驾驶行业中遥遥领先。
国内主机厂和自动驾驶公司的训练算力很少能达到特斯拉的规模。小鹏是在 训练算力建设方面比较领先的公司,其于 2023 年 8 月宣布建成了 “ 扶摇 ” 自动驾 驶智算中心,算力可达 600PFLOPS(以英伟达 A100 GPU 的 FP32 算力推算,约 等于 3 万张 A100 GPU)。商汤大装置已经布局全国一体化的智算网络,拥有 4.5 万块 GPU,总体算力规模达 12000PFLOPS,2024 年底将达到 18000PFLOPS。 大部分研发端到端自动驾驶的公司目前的训练算力规模在千卡级别,随着端到端 逐渐走向大模型,训练算力将显得捉襟见肘。
实车测试验证的成本高昂,针对经典的自动驾驶架构,行业已经有一套行之 有效的方案进行模型上车前的测试验证,即感知算法使用回灌数据进行离线开环 测试,规控算法基于模拟器进行闭环测试验证。 然而,以上方法无法满足端到端自动驾驶的测试验证需求。一方面,在基于 数据回灌的开环测试条件下,端到端系统无法与环境交互,系统一旦出现偏离采 集路径的操作,后续系统的响应将无法评估。例如,商汤绝影智驾副总裁石建萍 表示,公司之前基于开环测试验证后的模型,部署在实车上后差异很大,可见, 离线数据开环验证的结果基本无法等效于实车的表现。另一方面,基于模拟器可 以实现模型的闭环测试验证,但现有的模拟器在传感器一致性和保真度上离真实 世界尚有较大差距。
如第三章所述,端到端将带来自动驾驶团队的组织重塑。大部分 All in 端到 端的公司都在削减原有团队规模,将团队重心调整到 AI 大模型和数据基建方向。 参考特斯拉从 FSD v11 到 v12 经历的 “ 性能爬坡 ”,端到端模型上车后,其早期 性能可能不会强于极致优化的经典技术方案,这也对管理层进行技术路线转型的 决心提出考验。 同时,削减团队规模不意味着总体投入的减少,一方面,端到端转型会使现 有智驾团队的人员规模减少,另一方面,端到端对数据、数据基础设施的投入增加。 对部分公司管理层来说,扩张团队的决策是容易的,但对数据、工具链等 “ 看不见、 摸不着 ” 的资源的投入更需要认知模式的切换。