智能驾驶进化史与全链路大模型应用探索

作者：合正汽车好
2024-12-10 17:33
847

近年来越来越多的车企都开始拥抱智能驾驶技术，不管是造车新势力还是传统的车企，如小鹏、理想、蔚来等自研智驾系统，或者与华为合作使用ADS系统的问界（赛力斯）、智界（奇瑞）、享界（北汽）、方程豹8（比亚迪）等品牌，以及采用Momenta方案的智己等车企，可以看出新能源车的智驾功能将会是未来发展趋势中重要的一环，结合近年来状态火热的AI大模型技术，车企的端到端大模型也应运而生，你们经常会听到 BEV 、OCC、端到端等专业术语，这些到底是什么意思，接下来我会逐一为大家介绍与阐述。

首先给大家介绍近年来车企智驾方案的技术演进的路线，大致可以分为以下几个阶段：

1、模块化

采用经典的智能驾驶步骤，感知，定位，融合跟踪，预测，规划，执行。在智能驾驶开发中也是严格划定每个模块的边界，各司其职。

在模块化阶段，AI主要应用于目标物识别和感知，以及部分预测任务。感知主要是基于视觉的目标物的识别，所以数据标注量决定了感知的精准度；预测采用决策树等算法。规控算法主要采用经典PI（一种常用的闭环控制策略，用于实现对系统的误差调节），基本配置依赖前视摄像头来感知目标物，因此常见的5V（5 vision，即5个摄像头，其中4个为环视）方案多属于这一类别。

国内新势力Xpeng 小鹏早期都是采用Mobileye提供感知的方式实现，在国内新势力以及众多其他推出的第一代高速领航辅助都是基于此类感知方式配合HD高精地图实现。但很快随着智能驾驶功能以及覆盖ODD( 运行设计域，也就是开启辅助驾驶的场景)的需求不断扩大，这种分布式模块的智能驾驶架构，由于模块复杂，严重依赖高精地图，所以无法规模化。

2、 BEV+Transformer+Occupancy

面对数据标注量的挑战和智能驾驶场景中的长尾问题（即自动驾驶汽车中发生概率较低的边缘情况），以及如何在不依赖HD高精地图的情况下实现规模化，马斯克在2021 AI Day展示了相关技术：

鸟瞰图（BEV） ：BEV利用车辆360度摄像头提供从上方俯瞰的视角，结合多个传感器（如摄像头、雷达、激光雷达）的数据，生成全面的环境视图。该视图显示车辆周围的物体（如其他车辆、行人、障碍物）及其三维空间位置信息。

Transformer模型 ：Transformer是一种深度学习架构，最初用于自然语言处理，因其优秀的序列处理和关系建模能力而受关注。在自动驾驶中，Transformer处理BEV数据，理解和预测物体之间的动态关系。结合这两种技术，智能驾驶实现了3D感知与时间维度的4D感知，使车辆能够实时检测、跟踪周围物体，并预测其未来状态。这种4D感知能力对于在复杂动态交通环境中安全导航至关重要。

Occupancy占用网格： Occupancy占用网格技术在2022年特斯拉AI Day中被提出，它能够在BEV空间中完成动态障碍物的3D检测和静态障碍物的识别建模，直接在3D空间中感知占用关系，为系统规划提供可行驶区域，当然占用网格挺吃算力，国内目前有通过激光雷达等其他传感器方式实现。

3、端到端

第一端： 主要指感知端，包括车辆的摄像头、激光雷达等传感器，它们负责输入环境信息。

第二端：则是形式轨迹，简单来讲也就是控制端，车辆在收集到第一端的环境信息后，最重要做出决策，对车辆进行行驶轨迹控制，让车辆根据环境进行加减速、避让等。

端到端方案端到端大模型的特征在于不再进行模块和任务的划分:

随着模型融合多个大模块(各模块逐步融合并被大规模神经网络模型取代)。到端系统接收到传感器的输入数据后，直接输出驾驶决策(动作或轨迹)。

端到端架构增强了智驾的‘类人驾驶’体验：

相较传统模块化架构(感知/预测/规控等子模型嵌套协同)，端到端大模型道过更简洁的系统架构。基于数据驱动进行全局任务优化，能够避免信息损耗、计算延迟、误差累积等，利于优化长尾问题、解决智驾方案机器操控感较强的用户痛点，所以端到端上线会很高，但因训练数据的差异性和不足时，部分场景对比规则化的智驾会显得不稳定。

端到端的难点：

算力+数据是端到端技术的两大难点，一个大模型的训练分为预训练（Pretraining）、微调（SFT）和人类反馈强化学习（RLHF），智驾模型是一个专有模型，智驾算法的本质是从大量的优质驾驶视频片段中提取和压缩驾驶知识与习惯的过程，端到端作为单一网络模型完全由数据训练驱动而实现优化。而算力是数据训练的基础设施，因此端到端模型对于数据(需要学习海量驾驶视频片段)和云端算力(需要采用大量GPU)存在巨大需求。

案例分析：

国内新势力的智驾方案，也大致参照上述发展历程，以小鹏的智驾方案为例：