写评论
评论
点赞
手机看
分享至
- 用微信扫码二维码分享至好友和朋友圈

特斯拉自适应巡航，玩转智能驾驶新体验

作者：小舅子侃车纯正精品车
2025-03-18 12:41

作者 | 咖啡鱼

一、总体框架

特斯拉的 FSD（Full Self-Driving，全自动驾驶）是一套自动驾驶系统，旨在实现车辆在复杂道路环境中驾驶员脱手的自动驾驶功能。据报道，FSD 目前仍属于 ~~L2+ 级别~~ 的辅助驾驶，也就是说驾驶员可以脱手但不能离开视线，需驾驶员保持注意力以便随时接管，但按照 tesla 的想法，FSD 可以在保持现有框架下，通过积累数据和训练模型，可以进化到 L4 自动驾驶。

特斯拉 FSD 是纯视觉方案： 采用 8 个摄像头（360°视野，最远 250 米探测），用 Occupancy Network 建模环境并预测运动，BEV 生成鸟瞰图辅助决策。

使用 Transformer 处理连续帧的视觉图像组成的时序数据，端到端训练从图像到控制指令（转向、加速减速）。在客户手动驾驶时，则启用影子模式在后台学习人工驾驶的决策（也就是 AI 模拟学习人类司机的操纵动作），增量训练现有模型，从而利用全球匿名驾驶数据闭环持续提升性能，其中匿名是指环境-操纵指令数据无法追溯到任何个人身份。

二、整体架构

这张架构图信息量十分丰富，所以本文先介绍其中的核心概念 12 个如下。本文忽略一些非关键概念，比如 rectify 只是修正的意思，表示对摄像头原始图像的某种修正。对图像的修正本身并不是不重要，但是特斯拉没有披露具体的 rectify 算法，本文也简化处理。

12 个核心概念如下：

1. Image Input （图像输入）

输入原始摄像头拍摄的图像数据，通常来自特斯拉车辆的 8 个环视摄像头。

2. Image Featurizers （图像特征提取器）

将输入图像转换为更抽象的特征表示。常用的模块包括：RegNets：self-regulated network 一种高效的卷积神经网络架构，用于提取图像的空间特征。可以参考 arxiv 文献《RegNet: Self-Regulated Network for Image Classification》。

BiFPNs（Bidirectional Feature Pyramid Networks）：双向特征金字塔网络，用于多尺度特征融合。

特斯拉自动驾驶中的 RegNets 是一系列卷积神经网络，所以是 net-s 复数形式，主要用于从摄像头捕获的图像中提取基本的视觉特征。这些网络是 Residual Neural Networks（残差神经网络）的一种变体，能够通过不同层次的特征提取，捕捉图像中的复杂模式和细节。相比于传统的 ResNet，RegNets 进行了更高一层的抽象，解决了神经架构搜索（NAS）设计空间固定的问题，允许创建新颖的模块结构，从而提高模型的灵活性和效率。

在特斯拉的全自动驾驶系统（FSD）中，RegNets 作为特征提取器，处理来自汽车周围八个摄像头的视频流，生成多尺度的特征表示。这些特征随后被传递给双向特征金字塔网络（BiFPNs），用于进一步增强特征表示能力，支持更精确的物体检测和场景理解。RegNets 还与 HydraNets 等其他神经网络协同工作，共同构建了特斯拉端到端自动驾驶算法体系。

3. Spatial Attention （空间注意力）

强调图像中不同区域的重要性。例如：关注前方车辆、行人等关键目标。

忽略背景噪声或无关区域。

4. Temporal Alignment （时间对齐）

将不同时间点的特征对齐，以便理解动态场景的变化。例如：将过去几帧的特征与当前帧对齐，用于预测目标的未来轨迹。

5. Surface Outputs （表面输出）

输出车辆周围环境的二维或三维表示，例如：地面投影图（Ground Plane Projection）。

俯视图（Bird’s Eye View， BEV）。

6. Multicam Query （多摄像头查询）

将来自多个摄像头的数据整合成一个统一的查询结果，确保全局一致性。

7. Spatial Embedding （空间嵌入）

将空间信息编码为向量形式，便于后续处理和计算。

8. Deconvolutions （反卷积）

将低分辨率特征图上采样到高分辨率，用于生成详细的三维占用网格。

9. Volume Outputs （体积输出）

输出三维空间中的占用网格（Occupancy Grid），表示车辆周围环境中物体的位置和形状。

10、Trajectory Used to Align （用于对齐的轨迹）

使用历史轨迹信息来对齐当前帧中的目标位置，提高预测的准确性。

11. Queryable Outputs （可查询输出）

最终生成的输出可以被其他模块查询，例如：车辆位置。

障碍物位置。

行人轨迹。

12. MLP （多层感知机）

多层感知机（Multi-Layer Perceptron）用于进一步处理特征，例如：对空间特征进行非线性变换。输出最终的控制指令（如转向、刹车）。

介绍完核心概念后，本文把端到端处理步骤列在下面：

三、硬件配置

其 8 个摄像头分布的位置分别是 ：左、右前轮翼子板各一个、左右两侧 B 柱各一个、后方牌照上方一个、前挡风玻璃后有三个。

左、右前轮翼子板摄像头不是用作前视摄像头，而是主要是监控侧后方的摄像头，其最大的监测距离达到了 100 米，能够实时监控汽车后方两侧的盲区。主要用于汽车变道或汇入某条路。

前风挡上的三个摄像头才是前视摄像头，包括主视野镜头、鱼眼镜头和长焦距镜头。这三个摄像头是监测汽车前方宽阔的视角，还有探测远距离物体。

1、主视野摄像头： 监测车辆前方的宽阔视野能够覆盖大部分的交通场景。

2、鱼眼摄像头： 鱼眼摄像头就是广角摄像头，视野能达到 120 度，不仅能够拍到交通信号灯，而且在行驶道路上的障碍物或者距离较近的物体也都能拍到。当汽车在城市街道、低速缓行的路段，该摄像头非常占优势。但图像有形变，需要修正。

3、长焦距摄像头： 该摄像头比较适用于高速行驶时的交通场景，因为其视野相较而言会比较狭窄，用于清楚拍摄远距离物体。

侧视摄像头最大的监测距离达到了 80 米，能够实时监控高速公路上突然并入当前行驶车道的车辆，同时在驾驶员视野受限的交叉路口，这两个摄像头也能拍到周围环境情况，因为驾驶员背部在 B 柱前面，除非回头否则一般看不到 B 柱两侧。

8 个摄像头中最弱的是后视摄像头，最大监测距离是 50 米，能帮助驾驶员安全倒车和监视后方来车。

而特斯拉的 FSD 域控制器也经历了如下演化过程，从英伟达 Tegra Parker 到自研的两颗 FSD 芯片。

四、要素总结

最后，本文总结三个 FSD 的基本要素： 占据网络，transformer，BEV space 。

1、特斯拉的 Occupancy Network（占据网络 ）是一种先进的深度学习技术，主要用于自动驾驶中的 3D 环境感知。它能够从多视角的图像中生成车辆周围环境的三维占用网格，判断 3D 空间中的某个单元格是否被物体占据。这种技术最初可能受到立体双目视觉路径规划的启发，通过视差图（毕竟有 8 个摄像头，拍摄区域有重叠，视差可以获取）获取深度信息，并利用栅格占有法确定可行驶的空间。

与传统的基于矩形框的目标检测方法不同，Occupancy Network 可以表示任意形状的物体，而不对物体的几何形状做过多假设，因此在处理异形车辆或障碍物时更具优势。此外，该网络不仅限于简单的占用状态预测，还结合了语义信息，简单说就是那个格子里面是什么东西，实现了更高效的环境感知和路径规划。

特斯拉的 Occupancy Network 采用了将世界划分为微小立方体（或体素）的方式，然后预测每个体素是空闲还是被占用。这种方法类似于机器人领域的 occupancy grid mapping 思想（2d）。

2、Transformer 在连续帧图像处理中的应用是一个快速发展的领域，它结合了深度学习和计算机视觉的技术，用于解决诸如视频预测、图像超分辨率、视频实例分割以及车道线检测等问题。

众所周知，Transformer 架构最初是为自然语言处理（NLP）设计的，但近年来已被广泛应用于图像和视频处理任务中。其核心思想是通过自注意力机制（self-attention mechanism）捕捉输入数据中的长距离依赖关系。对于连续帧图像处理，Transformer 能够有效地建模帧间的时间和空间特征。

编码器-解码器结构： Transformer 通常由编码器和解码器两部分组成。编码器将输入序列映射到连续的向量空间，而解码器则将这些向量解码为输出序列。

自注意力机制： 通过计算输入序列中每个位置与其他所有位置的相关性，Transformer 能够捕捉全局信息，这对于理解连续帧图像中的动态变化至关重要。

连续帧图像处理的具体应用如下：

1）视频预测

Transformer 可以被用于视频预测任务，其中模型需要根据过去的几帧来预测未来的帧。这种技术在自动驾驶、动作识别等领域具有重要应用。

Transformer for Video Predictions：通过将连续帧视为序列数据，Transformer 可以学习帧间的复杂时间依赖关系，从而实现准确的未来帧预测。

2）视频实例分割

视频实例分割任务要求模型不仅能够识别视频中的物体，还需要区分不同的实例。

基于 Transformer 的端到端方法：给定多帧图像序列，首先利用卷积神经网络（CNN）进行初始图像特征的提取，然后将多帧的特征结合作为特征序列输入 Transformer 进行建模，实现序列的输入和输出。

现在由于特斯拉还没有完全披露其 FSD 的全部细节，本文推测 Transformer 在 FSD 的主要作用是以上两个，而最核心的自注意力机制从连续帧中挑选最合适的、最有代表性、也是注意力权重最大的几帧图像来实现视频预测和视频分割识别。

3、BEV 鸟瞰 space