你的浏览器版本过低，可能导致网站不能正常访问！为了您能正常使用网站功能，请使用这些浏览器。

chrome

Firefox

网站地图

全部频道：

车型

图片

视频

直播

文章

评测

导购

报价

经销商

降价

点评

社区

易车号

新能源

商用车

裸车价

二手车

购车服务：

超值特惠

分期

鲨鱼车展

实用工具：

车型对比

购车计算器

贷款计算器

卖车估值

查看更多>>
移动应用

易车app
手机扫码快速下载


易车小程序
手机扫码打开
 手机易车易车汽车报价淘车车易鑫金融
出版

工具栏

DriveVLM揭秘：理想自动驾驶的“增程器”

作者：汽车工业技术
2024-06-24 23:34
275

There is a tide in the affairs of men, which, taken at the flood, leads on to fortune;Omitted, all the voyage of their life is bound in shallows and in miseries. On such a full sea are we now afloat.

在人的命运中，有一股潮流，若在它汹涌澎湃时抓住它，便能引领你走向成功；若错过，你一生的航程就会困于浅滩和苦难。现在我们正是在这样的汹涌大海上飘荡。

—— 摘自莎士比亚《尤利乌斯·凯撒》

AI大模型的趋势下，自动驾驶行业显得格外焦虑，曾经手写的几十万行规则代码正在被逐渐删除，从Rule Base加速向AI端到端转变。如果都2024年还在吹BEV+Transformer无图化，那显然已经在嘴仗上“落后一代”了。

2023年11月，特斯拉FSD Beta V12版本发布，马斯克表示这是历史上第一个端到端AI自动驾驶系统（Full AI End-to-End），从头到尾都是通过AI实现，没有程序员写一行代码规则来识别道路、行人等概念，全部交给了神经网络自己思考。

今年上半年，端到端自动驾驶的风吹到了东半球的新造车势力：

4月24日，华为发布端到端的架构的乾崑ADS3.0，用PDP一张网络进行预决策规划；
5月20日，小鹏汽车发布智驾端到端大模型XNet+XBrian+XPlanner，仿生人眼/大脑/小脑学习人类驾驶行为；
6月7日，理想汽车发布端到端智驾研究成果DriveVLM-Dual混合系统，用快慢双系统模拟人类驾驶行为；
6月19日，蔚来汽车宣布自动驾驶团队架构调整，感知和规控团队合并为大模型团队，欲探索端到端大模型；
6月22日，华为盘古大模型发布，应用在自动驾驶仿真测试&训练中，AI端到端的ADS 3.0也即将发布；

其中，理想汽车的DriveVLM-Dual混合系统比较有意思，其技术架构细品下来，像极了往原有的自动驾驶架构里也塞了个“增程器”外挂。这套明显蕴含着理想DNA的技术架构发布，也是自MEGA上市风波以来，李厂长首次为理想智驾站台。

DriveVLM的工作原理

首先我们来了解下原理——VLM（Vision-Language Model）是视觉语言大模型，将其应用在自动驾驶领域中（DriveVLM），可以根据车辆感知输入的图片关键帧，输出对场景的描述/理解分析/决策规划：

场景描述：天气/路况/物体是什么样的？
场景分析：哪些是会产生影响的关键物体，可能发生了什么？
场景决策：输出语言描述决策&元决策和动作（与输出该场景下的解决方案和驾驶轨迹规划）

所以，在自动驾驶面临复杂与长尾场景时，可尝试调用VLM视觉语言大模型，提高自车对场景的理解能力和规划能力。我尝试用ChatGPT 4o举例说明：

DriveVLM的局限性

看上面的图可能你也发现了问题：

1、DriveVLM模型体量大导致高延迟：在车端的推理与响应速度慢，无法满足自动驾驶需要实时快速响应的应用场景。

2、DriveVLM的 3D 空间定位能力差：难以精确理解物体的空间位置和详细运动状态，无法很好地感知周围环境的深度和距离。可能会带来一系列感知与规划问题：

感知问题：

-False Positive /Negative：系统可能会错误地检测到不存在的障碍物（False Positive）或漏掉真实的障碍物（False Negative）

-距离不准确：系统对物体距离和角度的判断不够精确，可能会误判物体之间的距离。

规划问题

-轨迹不平滑：系统规划的行驶路径不够平滑，可能会出现抖动或者不连续的情况。

-容易碰撞：由于规划不当，车辆可能更容易发生碰撞。

DriveVLM-Dual混合双系统

由于DriveVLM存在以上局限性，理想提出DriveVLM-Dual混合系统，即让自动驾驶系统与 DriveVLM 进行合作，模拟人脑开车时的“快系统”+“慢系统”的思维运作方式，尝试解决DriveVLM的局限性。

模拟人开车的快-慢系统

快系统：应对常见的、简单的驾驶情况。

人类超过95%的时间在不动脑筋的情况下驾驶（肌肉记忆）。自动驾驶系统在超过95%的时间里，也可以通过预先编程的规则和常见情况的处理逻辑来完成驾驶任务。

慢系统：应对不常见的、复杂的驾驶情况。

人类在遇到复杂或紧急情况时需要集中注意力、分析情况并做出最佳决策。——自动驾驶系统在长尾场景中需要通过VLM进行更高级的推理和决策才能应对，如道路上的突发障碍物、紧急事故处理等。

简而言之，简单场景用快系统（端到端），复杂场景用慢系统（DriveVLM），增加智驾的连续性。

这味道，很熟悉。像极了理想当初的增程模式——城市用电，长途用油（发电），增加续航里程。

原有自动驾驶结构（快系统）+DriveVLM（慢系统）

感知结合：DriveVLM的2D感知结果融合了原自动驾驶的3D检测结果，对场景有更加完整的理解。
规划结合：DriveVLM输出的参考轨迹与“快系统”的轨迹规划结合，输出更加合理的轨迹规划。

理想的MAX车型采用了双OrinX结构，所以在DriveVLM-Dual车端部署方面，一颗OrinX跑理想的端到端，一颗 OrinX 跑DriveVLM，两个系统并行运行，若遇到长尾场景，慢系统（VLM）介入快系统，至于如何判断场景是否为长尾场景，这个依赖于理想的SUP-AD 长尾场景数据集。

不论是VLM在感知层面与规控层面的结果拟合，还是车端的双系统部署， 理想DriveVLM-Dual模型的设计类似于增程器——在理想原有的自动驾驶架构上附加了一个「长尾场景增强型外挂」。

这个外挂利用视觉语言模型（VLM）的能力，在原有的自动驾驶系统的基础上提供了额外的感知和决策支持，与原有的3D感知结果&路径规划做拟合优化，增强了系统在复杂场景下的感知、理解和决策能力，从而提升了整体的自动驾驶性能。

但目前尚未知道理想如何保障VLM语言标注的一致性，并加快VLM在车端的运行推理速度，这一切都将是智驾系统量产落地的难题。

结语：

电动化浪潮中，理想率先找到了增程这一增长捷径，并长期霸榜新势力销量榜首。

理想在智驾领域曾经也试图找寻翻盘的“捷径”，例如NPN先验网络 + TIN 交通信号灯网络，但从最近一年的公关稿中已经比较罕见了。DriveVLM-Dual会不会是理想跨越智驾排位的另一个捷径？这要等到李厂长今年底给我们答案。

标签: 理想 LM 自动驾驶

内容由作者提供，不代表易车立场

收藏成功 ! 去易车app查看收藏文章

猜你想看

排行榜

相关资讯

CopyRight © 2000-2023 BitAuto,All Rights Reserved. 版权所有北京易车信息科技有限公司购车咨询：4000-168-168 (周一至周日 9:00 – 21:00) 法定假日除外