特斯拉FSD智能驾驶算法经历了怎样的发展阶段？ - 问答集锦

最佳答案由匿名用户编辑于2025/08/15 11:29

从感知-规划-控制模块化到端到端，VLM/A是基于模型的强化学习。

过去 10 年间，特斯拉 FSD 几乎在全球范围内牵引着智能驾驶产业的发展，因此我们认为，详细梳理特斯拉 FSD 模型算法的发展变化对于理解智能驾驶的模型算法具有纲举目张的重要意义。2022 年的 Q4 财报会议上，马斯克曾宣称：“在自动驾驶领域特斯拉处于遥遥领先的绝对第一”。英伟达 CEO 黄仁勋在接受外媒采访时高度评价“特斯拉在自动驾驶方面遥遥领先。特斯拉 FSD V12 真正具有革命性的一点是，它是一个端到端的生成模型。”

我们认为，特斯拉 FSD 智能驾驶算法自 2014 年共经历三大发展阶段：2014-2016 年，以 Mobileye 为代表的“模块化”规则驱动算法主导智驾领域。这一阶段，以 Mobileye 为代表的主流厂商通过人工编写代码定义驾驶场景（如物体识别、路径规划），模块化分割感知、决策与控制环节。核心问题在于：1）长尾场景覆盖不足：依赖有限规则库，难以应对复杂动态环境（如特斯拉 Model S 2016 年因算法无法识别白色拖车导致致命事故）；2）误差累积与延迟：多模块串联导致信息传递效率低，决策延迟显著，且在传递过程中会不可避免地存在一定程度的信息损耗和复合误差；3）开发成本高企：需海量人工标注与代码编写，维护成本高，难以规模化迭代，同时，为保证感知模块中定位部分的准确，有些公司会使用高成本的高精地图。 2016 年 5 月，全球首例配备 Autopilot 的 Model S 发生致命事故，事故原因在于算法无法区分白色拖车和天空（事故车辆车载传感器为毫米波雷达+摄像头），导致同年 9 月特斯拉和 Mobileye 终止合作。

2017-2022 年，感知模块逐步引入 BEV+OCC 架构实现“端到端”。端到端本质上是使用一个独立系统，代替分散的模块进行驾驶的结构；是基于统一的神经网络，从原始传感器数据输入直接到控制指令输出的连续学习与决策过程。全程不涉及任何显式的中间表示或人为设计的模块，不再需要工程师穷尽驾驶中可能遇到的情况写无穷无尽的代码。同时，集成化的系统表达也让信息传递走向“零损耗”。2017 年，特斯拉首先引入 CNN 网络进行图像识别。2021 年，特斯拉提出 BEV，通过“鸟瞰” ——类似鸟类从高空俯视地面的角度，使用八个摄像头（视觉）捕捉道路和汽车周围环境的 2D 图像，进而使用 Transformer 将平面图转化为 3D 向量空间，帮助汽车准确地感知路面情况。此外，在现实驾驶情景中，还存在大量长尾问题——例如路面的不规则物体和数据集以外的情况，导致视觉系统无法识别所有物体，进而引发安全事故。而人类司机在真实行驶过程中其实并不需要认识所有路面物体，只须意识到需要绕行即可。参照这个理念，特斯拉在 2022 年推出 Occupancy 占用网络，从识别检测进化到识别占用。OCC 将世界划分为网格单元，进而定义单元是空闲还是被占用，不以认识分类为第一优先级，而以空间占用作为第一测量目标。BEV+OCC 同样通过 Transformer 实现，最终输出 Occupancy Volume（物体所占据的体积）和 Occupancy flow（时间流，即物体所占据某个位置的时间）。时间流一般通过光流法判断，光流法假设构成物体的像素亮度恒定且时间连续，通过对比连续两帧图像中的像素位置变化，生成 4D 投影信息。总的来说，OCC 将 BEV 融合空间从 2D 真正升维至 3D，并且在加入时间流信息（基于光流法）之后，完成了由 3D 向 4D 的过度，大大提升了系统的泛化能力

2023 年至今，追求“一段式端到端”。2022 年后“端到端”算法受到智驾业界广泛追捧，2023 年 8 月，特斯拉发布 FSD V12，将 FSD 原本 30 多万行的 C++代码砍到 3,000 行，进一步展现出“端到端”算法的效率优化幅度。“端到端”算法目前主要分为“一段式”和“两段式”两大流派：1）“一段式”方案是将感知、决策、规划等模块整合到一个模型中，从传感器输入外部环境信息，直接输出自车的行驶轨迹。一段式端到端本质是一个黑盒系统，缺乏透明度，工程师很难去 debug 下限很低的问题，因为不知道问题出在哪里。2）“两段式”方案通常由两个部分组成，即感知模型和规控模型。信息在经过感知模型过滤后，再到规控模型。两段式的好处在于从感知到规控不是完全黑盒，可以进行 debug 系统在决策时的逻辑，因而有更好的可解释性、安全性。但两段式的方案信息经过感知模型过滤后，再到规控模型，损失较多，同时还会面临无法全面理解整个复杂场景、泛化能力和解决 corner case 的能力较弱等问题。因此不难理解，这种“两段式”的方案——也被称为显式端到端，会因存在某些“模块化”算法的弊病，而被质疑并非真正意义上的“端到端”。目前，一段式“端到端”仍是国内外车企智驾模型迭代的主要发力方向，而在传统端到端以外，VLM、VLA 等慢思考模型也逐渐发展成熟，进入上车前夕。理想 2025 年 3 月发布了自研的 MindVLA，采用其 24 年首创的端到端+VLM 的双系统架构，通过分化日常驾驶情景和复杂未知情景，提供相对明确的纠错路径。其中，系统 1 是快系统，主要负责应对驾驶车辆时 95%的常规场景，只须输入传感器数据，不需要高精地图等先验知识，完全由数据进行驱动；系统 2 是慢系统，由 VLM 视觉语言模型实现，具备逻辑推理、复杂分析和计算能力，在驾驶车辆时用于解决复杂甚至未知的交通场景，占日常驾驶的约 5%。系统 2 的 VLM 通过思维链 CoT 做复杂的逻辑分析，并将决策结果反馈给系统 1，系统 1 和系统 2 相互配合，确保大部分场景下的高效率和少数场景下的高上限。MindVLA 计划在 2025 年 7 月前后和理想 i8 同时首发。

华为 25 年 4 月发布了乾崑 ADS4，ADS4 采用了 WEWA 技术架构——分别是 World Engine 世界引擎和 World Action Model 世界行为模型。世界引擎与行为模型是 ADS4 在云端、车端的技术核心，其中，世界引擎通过 AI 生成 Corner Case 训练模型解决长尾问题，而世界行为是华为的原生模型，不仅避免了使用开源大模型可能招致的时延大、效率低的问题，还能够将传感器的视觉、触觉、听觉感知信息转换为 Token 数据，进而帮助系统生成轨迹控制。

2025 年 7 月，小鹏 G7 发布会上，首发智驾“大脑+小脑”VLA-OL 模型，即将上车小鹏 G7。何小鹏在发布会上表示，在高算力支持下，小鹏 G7 在软件层面首发本地部署的 VLA （视觉语言动作模型）+VLM（视觉语言大模型）模型及“大脑+小脑”VLA-OL（视觉-语言-动作）模型。VLA 能让车辆像人类一样理解、推理和决策，在复杂场景中展现出更加类人的判断；VLM 视觉大模型是帮助车辆理解世界的“AI 大脑”、“VLA 大模型的目标是实现超端到端 10 倍的智驾能力。”

我们认为，传统端到端与 VLM、VLA（现阶段车企的 VLA 实质上是 VLT，也就是视觉、语言、轨迹模型，并未真的能够下沉至执行控制环节）的本质区别就是无模型的强化学习与基于模型的强化学习之间的区别。我们重申，是否应用基于模型的强化学习对于智能驾驶而言也许仅仅是一个“好用”与“可用”之间的区别，而对于一台通用人形机器人而言，是否应用基于模型的强化学习则会直接导致“可用”与“不可用”的区别，因为未经“思考”的动作无法使得机器人具备不同场景下的通用泛化性，而“思考”则是模型内部对未来进行模拟仿真的过程。

参考报告

具身智能前瞻系列深度报告：从线虫转向复盘至行动导航，旗帜鲜明看好物理AI.pdf
- 查看报告