你的浏览器版本过低,可能导致网站不能正常访问!为了您能正常使用网站功能,请使用这些浏览器。
chrome
Firefox

工具栏

DriveVLM揭秘:理想自动驾驶的“增程器”

There is a tide in the affairs of men, which, taken at the flood, leads on to fortune;Omitted, all the voyage of their life is bound in shallows and in miseries. On such a full sea are we now afloat.

在人的命运中,有一股潮流,若在它汹涌澎湃时抓住它,便能引领你走向成功;若错过,你一生的航程就会困于浅滩和苦难。现在我们正是在这样的汹涌大海上飘荡。

—— 摘自莎士比亚《尤利乌斯·凯撒 》

AI大模型的趋势下,自动驾驶行业显得格外焦虑,曾经手写的几十万行规则代码正在被逐渐删除,从Rule Base加速向AI端到端转变。如果都2024年还在吹BEV+Transformer无图化,那显然已经在嘴仗上“落后一代”了。

2023年11月,特斯拉FSD Beta V12版本发布,马斯克表示这是历史上第一个端到端AI自动驾驶系统 (Full AI End-to-End), 从头到尾都是通过AI实现, 没有程序员写一行代码规则来识别道路、行人等概念,全部交给了神经网络自己思考。

今年上半年,端到端自动驾驶的风吹到了东半球的新造车势力:

  • 4月24日,华为发布端到端的架构的乾崑ADS3.0,用PDP一张网络进行预决策规划;
  • 5月20日,小鹏汽车发布智驾端到端大模型XNet+XBrian+XPlanner,仿生人眼/大脑/小脑学习人类驾驶行为;
  • 6月7日,理想汽车发布端到端智驾研究成果DriveVLM-Dual混合系统,用快慢双系统模拟人类驾驶行为;
  • 6月19日,蔚来汽车宣布自动驾驶团队架构调整,感知和规控团队合并为大模型团队,欲探索端到端大模型;
  • 6月22日,华为盘古大模型发布,应用在自动驾驶仿真测试&训练中,AI端到端的ADS 3.0也即将发布;

其中, 理想汽车的DriveVLM-Dual混合系统比较有意思,其技术架构细品下来,像极了往原有的自动驾驶架构里也塞了个“增程器”外挂。这套明显蕴含着理想DNA的技术架构发布, 也是自MEGA上市风波以来,李厂长首次为理想智驾站台。

DriveVLM的工作原理

首先我们来了解下原理——VLM(Vision-Language Model)是视觉语言大模型,将其应用在自动驾驶领域中(DriveVLM),可以根据车辆感知输入的图片关键帧,输出对场景的描述/理解分析/决策规划:

  • 场景描述:天气/路况/物体是什么样的?
  • 场景分析:哪些是会产生影响的关键物体,可能发生了什么?
  • 场景决策:输出语言描述决策&元决策和动作(与输出该场景下的解决方案和驾驶轨迹规划)

所以,在自动驾驶面临复杂与长尾场景时,可尝试调用VLM视觉语言大模型, 提高自车对场景的理解能力和规划能力。我尝试用ChatGPT 4o举例说明:

DriveVLM的局限性

看上面的图可能你也发现了问题:

1、DriveVLM模型体量大导致高延迟:在车端的推理与响应速度慢,无法满足自动驾驶需要实时快速响应的应用场景。

2、DriveVLM的 3D 空间定位能力差:难以精确理解物体的空间位置和详细运动状态,无法很好地感知周围环境的深度和距离。可能会带来一系列感知与规划问题:

  • 感知问题:

-False Positive /Negative: 系统可能会错误地检测到不存在的障碍物(False Positive)或漏掉真实的障碍物(False Negative)

-距离不准确: 系统对物体距离和角度的判断不够精确,可能会误判物体之间的距离。

  • 规划问题

-轨迹不平滑: 系统规划的行驶路径不够平滑,可能会出现抖动或者不连续的情况。

-容易碰撞: 由于规划不当,车辆可能更容易发生碰撞。

DriveVLM-Dual混合双系统

由于DriveVLM存在以上局限性,理想提出DriveVLM-Dual混合系统,即让自动驾驶系统与 DriveVLM 进行合作,模拟人脑开车时的“快系统”+“慢系统”的思维运作方式,尝试解决DriveVLM的局限性。

模拟人开车的快-慢系统

  • 快系统:应对常见的、简单的驾驶情况。

人类超过95%的时间在不动脑筋的情况下驾驶(肌肉记忆)。自动驾驶系统在超过95%的时间里,也可以通过预先编程的规则和常见情况的处理逻辑来完成驾驶任务。

  • 慢系统:应对不常见的、复杂的驾驶情况。

人类在遇到复杂或紧急情况时需要集中注意力、分析情况并做出最佳决策。——自动驾驶系统在长尾场景中需要通过VLM进行更高级的推理和决策才能应对,如道路上的突发障碍物、紧急事故处理等。

简而言之,简单场景用快系统(端到端),复杂场景用慢系统(DriveVLM), 增加智驾的连续性。

这味道,很熟悉。像极了理想当初的增程模式——城市用电,长途用油(发电),增加续航里程。

原有自动驾驶结构(快系统)+DriveVLM(慢系统)

  • 感知结合:DriveVLM的2D感知结果融合了原自动驾驶的3D检测结果,对场景有更加完整的理解。
  • 规划结合:DriveVLM输出的参考轨迹与“快系统”的轨迹规划结合,输出更加合理的轨迹规划。

理想的MAX车型采用了双OrinX结构,所以在DriveVLM-Dual车端部署方面,一颗OrinX跑理想的端到端,一颗 OrinX 跑DriveVLM, 两个系统并行运行,若遇到长尾场景,慢系统(VLM)介入快系统,至于如何判断场景是否为长尾场景,这个依赖于理想的SUP-AD 长尾场景数据集 。

不论是VLM在感知层面与规控层面的结果拟合,还是车端的双系统部署, 理想DriveVLM-Dual模型的设计类似于增程器——在理想原有的自动驾驶架构上附加了一个「长尾场景增强型外挂 」。 

这个外挂利用视觉语言模型(VLM)的能力,在原有的自动驾驶系统的基础上提供了额外的感知和决策支持,与原有的3D感知结果&路径规划做拟合优化,增强了系统在复杂场景下的感知、理解和决策能力,从而提升了整体的自动驾驶性能。

但目前尚未知道理想如何保障VLM语言标注的一致性,并加快VLM在车端的运行推理速度,这一切都将是智驾系统量产落地的难题。

结语:

电动化浪潮中,理想率先找到了增程这一增长捷径,并长期霸榜新势力销量榜首。

理想在智驾领域曾经也试图找寻翻盘的“捷径”,例如NPN先验网络 + TIN 交通信号灯网络,但从最近一年的公关稿中已经比较罕见了。DriveVLM-Dual会不会是理想跨越智驾排位的另一个捷径?这要等到李厂长今年底给我们答案。

内容由作者提供,不代表易车立场

收藏

收藏成功 ! 去易车app查看收藏文章

猜你想看

+加载更多

活动推荐

广告
  • 奖 
  • 抢 
  • 奖 

CopyRight © 2000-2023 BitAuto,All Rights Reserved. 版权所有 北京易车信息科技有限公司    购车咨询:4000-168-168 (周一至周日 9:00 – 21:00) 法定假日除外