特斯拉FSD智能驾驶算法经历了怎样的发展阶段?

最佳答案 匿名用户编辑于2025/08/15 11:29

从感知-规划-控制模块化到端到端,VLM/A是基于模型的强化学习。

过去 10 年间,特斯拉 FSD 几乎在全球范围内牵引着智能驾驶产业的发展,因此我们认 为,详细梳理特斯拉 FSD 模型算法的发展变化对于理解智能驾驶的模型算法具有纲举目 张的重要意义。2022 年的 Q4 财报会议上,马斯克曾宣称:“在自动驾驶领域特斯拉处 于遥遥领先的绝对第一”。英伟达 CEO 黄仁勋在接受外媒采访时高度评价“特斯拉在自 动驾驶方面遥遥领先。特斯拉 FSD V12 真正具有革命性的一点是,它是一个端到端的生 成模型。”

我们认为,特斯拉 FSD 智能驾驶算法自 2014 年共经历三大发展阶段:2014-2016 年,以 Mobileye 为代表的“模块化”规则驱动算法主导智驾领域。这一阶段,以 Mobileye 为代表的主流厂商通过人工编写代码定义驾驶场景(如物体识别、 路径规划),模块化分割感知、决策与控制环节。核心问题在于:1)长尾场景覆盖 不足:依赖有限规则库,难以应对复杂动态环境(如特斯拉 Model S 2016 年因算法 无法识别白色拖车导致致命事故);2)误差累积与延迟:多模块串联导致信息传递 效率低,决策延迟显著,且在传递过程中会不可避免地存在一定程度的信息损耗和复 合误差;3)开发成本高企:需海量人工标注与代码编写,维护成本高,难以规模化 迭代,同时,为保证感知模块中定位部分的准确,有些公司会使用高成本的高精地图。 2016 年 5 月,全球首例配备 Autopilot 的 Model S 发生致命事故,事故原因在于算 法无法区分白色拖车和天空(事故车辆车载传感器为毫米波雷达+摄像头),导致同 年 9 月特斯拉和 Mobileye 终止合作。

2017-2022 年,感知模块逐步引入 BEV+OCC 架构实现“端到端”。端到端本质上 是使用一个独立系统,代替分散的模块进行驾驶的结构;是基于统一的神经网络,从 原始传感器数据输入直接到控制指令输出的连续学习与决策过程。全程不涉及任何 显式的中间表示或人为设计的模块,不再需要工程师穷尽驾驶中可能遇到的情况写 无穷无尽的代码。同时,集成化的系统表达也让信息传递走向“零损耗”。2017 年, 特斯拉首先引入 CNN 网络进行图像识别。2021 年,特斯拉提出 BEV,通过“鸟瞰” ——类似鸟类从高空俯视地面的角度,使用八个摄像头(视觉)捕捉道路和汽车周围 环境的 2D 图像,进而使用 Transformer 将平面图转化为 3D 向量空间,帮助汽车 准确地感知路面情况。此外,在现实驾驶情景中,还存在大量长尾问题——例如路面 的不规则物体和数据集以外的情况,导致视觉系统无法识别所有物体,进而引发安全 事故。而人类司机在真实行驶过程中其实并不需要认识所有路面物体,只须意识到需 要绕行即可。参照这个理念,特斯拉在 2022 年推出 Occupancy 占用网络,从识别 检测进化到识别占用。OCC 将世界划分为网格单元,进而定义单元是空闲还是被占 用,不以认识分类为第一优先级,而以空间占用作为第一测量目标。BEV+OCC 同样 通过 Transformer 实现,最终输出 Occupancy Volume(物体所占据的体积)和 Occupancy flow(时间流,即物体所占据某个位置的时间)。时间流一般通过光流法 判断,光流法假设构成物体的像素亮度恒定且时间连续,通过对比连续两帧图像中的 像素位置变化,生成 4D 投影信息。总的来说,OCC 将 BEV 融合空间从 2D 真正升 维至 3D,并且在加入时间流信息(基于光流法)之后,完成了由 3D 向 4D 的过度, 大大提升了系统的泛化能力

2023 年至今,追求“一段式端到端”。2022 年后“端到端”算法受到智驾业界广泛 追捧,2023 年 8 月,特斯拉发布 FSD V12,将 FSD 原本 30 多万行的 C++代码砍 到 3,000 行,进一步展现出“端到端”算法的效率优化幅度。“端到端”算法目前主 要分为“一段式”和“两段式”两大流派:1)“一段式”方案是将感知、决策、规 划等模块整合到一个模型中,从传感器输入外部环境信息,直接输出自车的行驶轨迹。 一段式端到端本质是一个黑盒系统,缺乏透明度,工程师很难去 debug 下限很低的 问题,因为不知道问题出在哪里。2)“两段式”方案通常由两个部分组成,即感知模型 和规控模型。信息在经过感知模型过滤后,再到规控模型。两段式的好处在于从感知 到规控不是完全黑盒,可以进行 debug 系统在决策时的逻辑,因而有更好的可解释 性、安全性。但两段式的方案信息经过感知模型过滤后,再到规控模型,损失较多, 同时还会面临无法全面理解整个复杂场景、泛化能力和解决 corner case 的能力较弱 等问题。因此不难理解,这种“两段式”的方案——也被称为显式端到端,会因存在 某些“模块化”算法的弊病,而被质疑并非真正意义上的“端到端”。 目前,一段式“端到端”仍是国内外车企智驾模型迭代的主要发力方向,而在传统端到端 以外,VLM、VLA 等慢思考模型也逐渐发展成熟,进入上车前夕。 理想 2025 年 3 月发布了自研的 MindVLA,采用其 24 年首创的端到端+VLM 的双系统架 构,通过分化日常驾驶情景和复杂未知情景,提供相对明确的纠错路径。其中,系统 1 是 快系统,主要负责应对驾驶车辆时 95%的常规场景,只须输入传感器数据,不需要高精地 图等先验知识,完全由数据进行驱动;系统 2 是慢系统,由 VLM 视觉语言模型实现,具 备逻辑推理、复杂分析和计算能力,在驾驶车辆时用于解决复杂甚至未知的交通场景,占 日常驾驶的约 5%。系统 2 的 VLM 通过思维链 CoT 做复杂的逻辑分析,并将决策结果 反馈给系统 1,系统 1 和系统 2 相互配合,确保大部分场景下的高效率和少数场景下的高 上限。MindVLA 计划在 2025 年 7 月前后和理想 i8 同时首发。

华为 25 年 4 月发布了乾崑 ADS4,ADS4 采用了 WEWA 技术架构——分别是 World Engine 世界引擎和 World Action Model 世界行为模型。世界引擎与行为模型是 ADS4 在 云端、车端的技术核心,其中,世界引擎通过 AI 生成 Corner Case 训练模型解决长尾问 题,而世界行为是华为的原生模型,不仅避免了使用开源大模型可能招致的时延大、效率 低的问题,还能够将传感器的视觉、触觉、听觉感知信息转换为 Token 数据,进而帮助系 统生成轨迹控制。

2025 年 7 月,小鹏 G7 发布会上,首发智驾“大脑+小脑”VLA-OL 模型,即将上车小鹏 G7。何小鹏在发布会上表示,在高算力支持下,小鹏 G7 在软件层面首发本地部署的 VLA (视觉语言动作模型)+VLM(视觉语言大模型)模型及“大脑+小脑”VLA-OL(视觉-语 言-动作)模型。VLA 能让车辆像人类一样理解、推理和决策,在复杂场景中展现出更加 类人的判断;VLM 视觉大模型是帮助车辆理解世界的“AI 大脑”、“VLA 大模型的目标 是实现超端到端 10 倍的智驾能力。”

我们认为,传统端到端与 VLM、VLA(现阶段车企的 VLA 实质上是 VLT,也就是视觉、 语言、轨迹模型,并未真的能够下沉至执行控制环节)的本质区别就是无模型的强化学习 与基于模型的强化学习之间的区别。我们重申,是否应用基于模型的强化学习对于智能驾驶 而言也许仅仅是一个“好用”与“可用”之间的区别,而对于一台通用人形机器人而言,是否 应用基于模型的强化学习则会直接导致“可用”与“不可用”的区别,因为未经“思考”的动 作无法使得机器人具备不同场景下的通用泛化性,而“思考”则是模型内部对未来进行模拟仿 真的过程。