大模型赋能自动驾驶,算法、数据闭环、仿真全面受益。
自动驾驶算法从基于规则逐步走向神经网络,从模块化部署走向端到端一体化, Transformer+BEV 逐步成为主流。目前自动驾驶算法历经多年演变,呈现出几大特 点。首先,基于神经网络的算法逐步替代基于规则的算法,早年神经网络主要用于 感知环节,现在逐步在向规划控制环节渗透。其次,自动驾驶算法在早期以模块化 部署,每个模块拥有独立的优化目标,但整体模型的效果未必达到最优,因此端到 端的自动驾驶解决方案映入人们眼帘,学界和产业界均进行了诸多探索。最后,我 们看到行业玩家逐步认可 Transformer+BEV 的算法构建模式,模型架构上逐步走向 趋同,这无疑将推动包含芯片在内的整个产业链加速发展。
长尾问题处理是自动驾驶面临的主要挑战,数据驱动提供解药。当前,大部分 算法可以覆盖主要的行车场景,但驾驶环境纷繁复杂,仍有诸多罕见的长尾场景需 要算法识别和处理,这类场景虽不常见但无法忽视,成为制约自动驾驶成熟的主要 瓶颈。行业通常采用大量的数据去训练自动驾驶算法,以求让自动驾驶模型成为见 多识广的“老司机”。早期 Waymo 的路测、特斯拉的影子模式均希望通过获取大量 数据解决长尾问题。马斯克曾经在推特上赞同了实现超越人类的自动驾驶能力至少 需要 100 亿公里驾驶数据的说法。国内毫末智行将数据作为“自动驾驶能力函数” 的自变量,认为是决定能力发展的关键。Momenta 在其公众号上也表示 L4 要实现规 模化,至少要做到人类司机的安全水平,最好比人类司机水平高一个数量级,因此 需要至少千亿公里的测试,解决百万长尾问题。
自动驾驶在模型端仍需优化,数据闭环、仿真工具仍待完善。自动驾驶近年发 展迅猛,硬件预埋软件持续迭代的风潮下,车载算力急剧增长快速普及,但软件端 功能进化滞后于算力。软件端算法、数据闭环、仿真系统均有待完善。算法领域感 知、预测、决策、规划模型都在不断升级演进,精度、可靠性均有提升空间。数据 闭环系统方面,伴随有关车型量产,数据的挖掘、标注和处理工作量庞大,数据闭 环系统自动化高效运行决定模型能否由数据驱动持续迭代。仿真环节,理论上优质 仿真可替代实车数据收集,降低算法搭建成本并提升迭代速率,但逼真的仿真环境 的构建、诸多的长尾场景的复现难度大。
蒸馏、剪枝、量化助力大模型在多场景应用。通常大型模型采用三种方式压缩: 蒸馏、剪枝、量化。蒸馏类似于老师教学生,将一个大模型或多个模型集学到的知 识迁移到另一个轻量级的模型上方便部署。剪枝可理解为将复杂的神经网络结构精 简使其变得轻量化。量化则为直接降低模型中的参数精度,进而实现模型轻量化。 基于多种模型压缩的方式,大模型也拥有了加速垂直行业的基础。
大模型可在算法、数据闭环、仿真等环节全面赋能自动驾驶。大模型具有良好 的认知和推理性能,作为人工智能最先落地的应用领域之一,自动驾驶有望得到全 面助力。首先在数据闭环和仿真环节,大模型的精准识别和数据挖掘以及数据生成 能力可对数据挖掘、数据标注、以及仿真场景构建赋能。其次在模块化的算法部署 模式下,感知算法、规控算法亦可受到大模型的加强而实现感知精度和规控效果的 提升。最后,端到端的感知决策一体化算法被认为是自动驾驶算法终局,但面临诸 多难以解决的问题,比如构建适合该算法的仿真换环境、端到端的数据标注等,而 在大模型时代以上问题或不再成为瓶颈,落地指日可待。

2.1、 大模型助力数据挖掘和自动标注,数据飞轮飞驰推动自动驾驶落地
在自动驾驶的数据闭环体系构建过程中存在数据挖掘和自动标注等难点。随着 量产车型数量增加,产生的数据量呈现指数级增长,一方面,高效的利用数据实现 预期的训练效果要求系统具有数据挖掘、处理能力。另一方面,海量数据的标注带 来高昂的成本,而部分 3D 场景人工标注较为困难,进一步限制算法模型迭代和应用, 大模型诞生后这两类问题有望迎刃而解。
数据挖掘:百度阿波罗应用大模型实现长尾数据挖掘
百度首先利用文字和图像输入编码器预训练一个原始模型用来实现向量搜索, 再利用算法将街景图像数据进行物体识别并定位和分割,经过图像编码器,形成底 库;简单来说就是基于街景建立一个拥有图片和文字信息对应的大模型。最后,面 向特定的场景(如快递车、轮椅、小孩等),可以通过文本、图像等形式进行搜索和 挖掘(类似向量数据库)。进而对自动驾驶模型进行定制化的训练,大幅提升存量数 据的利用效果。
自动标注:商汤毫末等玩家已经推动走向落地
商汤科技在大模型加持下,落地数据自动标注服务商汤明眸。公司多模态多任 务通用大模型书生 2.5 拥有强大的语义理解和图像处理能力,在 ImageNet 分类任务 开源模型中 Top1 准确率能超过 90%。基于此公司开发出商汤明眸自动标注服务,提 供结构化检测等 12 个行业专用大模型,涵盖超 1000 个不同的 2D、3D 目标类别, 大幅降低标注成本。
毫末智行开发 DriveGPT,并释放云端驾驶场景识别能力。毫末智行训练了 DriveGPT 大模型雪湖·海若,用户将驾驶场景上传到云端平台,平台能够快速将图 片中所有车道线、交通参与者(行人、自动车等)标注出来,单帧图像整体标注成 本降低至行业平均水平的十分之一。
2.2、 大模型推动算法迭代,感知规控全赋能
大模型在自动驾驶感知端算法的应用: 大模型作为车端算法的“老师”,通过“蒸馏(教授)”帮助小模型实现优异的 性能。百度将文心大模型的能力与自动驾驶感知技术结合,提升车载端侧模型的感 知能力。百度用半监督方法通过用 2D 和 3D 数据训练出一个感知大模型。其中“半 监督”是指首先利用标注好 2D 和 3D 数据训练一个感知大模型,再让大模型为未标 注的 3D 数据进行标注,接着用这些数据再次训练感知大模型,多次迭代后,大模型 的感知性能实现快速提升。应用这个大模型即可实现对视觉小模型、多模态模型感 知能力的加强。
(1)利用大模型赋能增强小模型远距离 3D 视觉感知:一方面通过大模型对图 像进行 3D 标注,投送给小模型学习。另一方面,在模型中编码器输出处、在 2D 和 3D 的头等位置,进行大模型到小模型的蒸馏帮助提升小模型性能。最后全面提升了 小模型的 3D 感知效果。
(2)利用大模型赋能多模态感知:面向车载端融合视觉激光雷达数据的自动驾 驶算法,同样使用伪标注(自动标注)、并在图像端和点云端进行知识蒸馏等方式, 全面提升了多模态模型的感知效果,识别出了此前没有识别出来的绿化带等信息。
大模型在规控端应用:毫末智行发布行业首个 DriveGPT
毫末智行推出 DriveGPT,可实现城市辅助驾驶、场景脱困、驾驶策略可解释等 功能。毫末智行在 2023 年 4 月的 AI DAY 上推出了业界首个 DriveGPT 大模型—— 雪湖·海若。模型训练过程参考 GPT,首先构建 1200 亿参数的大模型,预训练环节, 将自动驾驶空间的信息如车道线、感知环境等离散化后作为 Token 输入大模型,再 基于联合概率分布生成未来 Token 序列,将 4000 万公里中合适的数据放进大模型中。 即将外部环境作为预训练数据输入模型,训练模型预测未来情景演化的能力。人类 反馈强化学习(RLHF)环节,选取 5 万条人驾困难场景接管数据,输入预训练模型, 并将模型输出的行为进行排序,进行强化训练。同时在根据输入端的提示语及毫末 自动驾驶场景库的样本训练模型,让模型学习推理关系。最终训练好的模型,可将 完整的驾驶策略分拆为自动驾驶场景的动态识别过程,进而实现可理解、可解释的 推理逻辑链条。毫末智行的 DriveGPT 大模型将实现城市 NOH、街景推荐、智能陪 练、场景脱困等功能,云端,大模型将开放接口提供包括智驾能力、驾驶场景识别 等能力。
2.3、 生成海量数据,大模型助力仿真平台及端到端自动驾驶模型构建
大模型能够生成海量可训练数据,推动端到端自动驾驶模型落地。云骥智行认 为自动驾驶的终局会演进成为一个超大规模的端到端自动驾驶神经网络:AD-GPT。而为了实现它,自动驾驶神经网络、海量高价值数据、车端高算力平台缺一不可。 这些在模块化构建算法的时代难以实现,而当大模型诞生后,无论在车端一体化模 型的构建、还是端到端训练仿真数据的生成似乎都触手可及。究其本源,大模型本 质上是对输入信息作出反应,而自动驾驶则是这类行为中的一个子集。
商汤:公司提到,可以用 AIGC 生成真实的交通场景以及困难样本来训练自动 驾驶系统,以多模态数据作为大模型的输入,提升系统对 Corner Case 场景的感知能 力上限。同时自动驾驶多模态大模型可做到感知决策一体化集成,在输出端通过环 境解码器可对 3D 环境进行重建,实现环境可视化理解;行为解码器可生成完整的路 径规划;动机解码器可用自然语言对推理过程进行描述,使得自动驾驶系统变得更 加安全可靠可解释。