端到端与 VLM：智能化新一轮“军备竞赛”又要到来？

作者：酱婶汽车
2024-06-25 00:29
176

有关智能驾驶，无图还没卷明白，新一轮的“军备竞赛”又要到来？

距离你第一次接触城区 NOA 过了多少天？

12 天前开启深圳城区 NOA 内测的智己与腾势、19 天前推送十城的小米、53 天前全量推送 NOP+ 的蔚来、145 天前全量推送的华为 ADS…… 644 天前，新出行做出了小鹏 P5 的一篇城市 NGP 视频。

细算一下，距离城区智驾的落地至今，有人硅步千里，有人尚在路上。两年的时间不快也不慢，但足够支撑我们在今年讨论城区智驾的下一个目标在哪——端到端与 VLM 的同时出现，会意味着智能化新一轮的“军备竞赛”节点到来吗？

“等等，你能先给我说一下，VLM 是啥吗？”

一、新的思考

- VLM 是什么？

VLM 的全程是 Visual Language Model，直译即视觉语言模型。顾名思义，这套模型将“视觉”看到的图片或者视频，通过模型转化为语言输出——直观一点的话术来说，就像是小学语文试卷里的看图写作。

而放在这篇文章里讨论的，是清华大学 MARS 实验室和理想汽车一起发布的 DriveVLM ，也就是用于驾驶中的 VLM 大模型。让我们来逐步解读一下：

- VLM 起到什么作用

“我们能不能教会 NOA 系统像人一样看得懂导航地图，而不是仅仅用感知结果进行判断？”李想在某次与理想自动驾驶负责人 @郎咸朋讨论时发出这样的一句疑问。

这里我们借用郎博的话语，NOA 如果想学会怎么“做人”，那就得用 NOA 能理解的话术去解读人类司机的决策。郎博引用了《思考，快与慢》中的理论，即人的决策过程通常由快（直觉性判断）与慢（逻辑性分析）两套系统产出构成——

如果换算成 NOA 能听懂的话，即 NOA 如果想学会“做人”，那就需要一套跑得快、判断快的模型，和一套跑得慢、但有复杂处理能力的模型。它们像齿轮一样紧密结合在一起，又可以分工合作，该快得快，该慢就慢。

而在理想的构思中，DriveVLM 会充当那套慢速的齿轮，通过读取突发紧急情况、复杂的交通或不熟悉的路段画面，进行更深度的决策——比如下图中的 DriveVLM，会根据路面信息输出包括天气、道路类型、车道选择建议、驾驶决策在内的“类人”思考。

但此时又引发了新的思考——LLM、VLM 这类语言大模型的生成并不是实时的，现实世界动态转瞬即逝，一套有延时的系统即使再好用，也无法纳入商业化的思考当中。因此理想智驾团队们联合清华 MARS 所做的事情之一，便是将 VLM 的延迟“打下来”。

在 MARS 与理想联合发表的论文中提到，在双方共同优化努力下，优化后的 DriveVLM 大模型在单颗 Orin 芯片的“跑”起来的延时缩减到了 0.3 秒，较正常情况下快出近 1 秒的时间。

- 与端到端打配合

那一套跑得快的齿轮由谁来负责？答案是端到端（E2E）。

你开车的时候会边听音乐边跟着唱吗？你开车的时候会和副驾聊天吗？如果有，恭喜你，你开车的路况真的很好，我在深圳很羡慕……

开个玩笑，但玩笑里包含着所要的答案——当路况好的情况下，我们通常可以在安全地驾驶之外，分出心来唱唱歌、聊聊天。此时我们更多依赖这套快的齿轮，对简单的路况做出迅速的判断。

而端到端模型输入传感器数据，模型直接输出规划轨迹的特性很好地复原了我们这套快的齿轮。理想给出的解法里，两块 Orin 芯片各司其职——一块负责端到端，一块负责 DriveVLM。

听起来是非常完美的规划，除了——目前只有理想给出了端到端 + VLM 的解，而 VLM，并没有得到公认的“无可替代”说法。

二、命途各异

事实上，对于端到端的研究，各个车企的脚步从未停下过——曾经用于智驾系统中的感知 - 规控 - 输出这类规则逻辑，正在实验室、某些绝密内测、你看着眼熟但贴着花花绿绿伪装车衣的车型中被逐步替代：

何小鹏：“小鹏是国内首个将端到端大模型量产上车的公司；2025 年，将在中国实现类 L4 级智驾体验。”

小鹏在此前就规划了 XNet 深度视觉感知神经网络、XPlaner 规划大模型、以及 XBrain AI 大语言模型。

而华为 ADS 3.0 似乎会来得更快一些——早前微博著名人士来总便已经公开分享了搭载 ADS 3.0 的享界 S9 试驾感受。

而任少卿把蔚来的感知和规控团队合并为大模型团队，集成团队重组为交付团队——这也与 @Harry_Wong 的言论相互印证——端到端是一个架构设计，也是一种开发模式和组织形式。

当然，除了理想、小鹏和华为之外，还有很多你知道、或者不知道名字的车企和智驾公司等也加入了端到端的竞赛中。

而端到端 + VLM，可以是通解，但并不是唯一解——就像人类在 95% 的时间里保持着理性和高效的驾驶判断，但总有 5% 的复杂场景，不是故事，便是事故——因此用一颗 Orin 跑出端到端的效果，理想给出的结论远比后半句的“另一颗 Orin 跑 DriveVLM”更重要。

因此我们现在能看到的——端到端是热潮，同时也逐渐演变为趋势——即使目前的所谓端到端还处于“白马非马”的阶段。但由点到面，单个环节的端到端会随着发展慢慢铺开，统一。

这趟热潮还带来更残酷的事实：无论是好大喜功还是煞有其事，曾经依靠比拼智驾团队人数判断强弱的时代即将过去了——意思是大多数人不再被需要，智驾团队的规模越变越小，而车企的钱也开始不经人手，为了端到端，为了各路大模型，将钱“烧”给算力，比拼谁的算力更多。

从这一点上看，你没有选 VLM ，我优化了 VLM——这些不重要，重要的是随着大家对于端到端的持续解读与投入，谁在各自的命途上行走地更远，才更有可能拿到下一轮军备竞赛的发言权。

- 所以呢？

写到这里，我没由来地产生出一股“智能驾驶厌恶着人类”的感受：

感知规控时代，人类如同父母，为初生的智能驾驶编写规则，引导“它们”从牙牙学语到蹒跚学步。

而随着年岁增长，智能驾驶不再满足与规则的输入与输出，各路大模型的出现，意味着“它们”有着自主分析的能力，不再单纯“听妈妈的话”，就像是人类的青年时期，理想与现实冲突的爆发——

智能驾驶的理想国之中，人类工程师，人类测试员，甚至人类司机的身影会显得越来越少，“它们”是如此讨厌着人类的介入、人类编写的规则、人类的……

但现实的生活中，当一台亮着辅助驾驶灯的车辆，被后方司机嫌弃着通勤效率闪灯鸣笛时，为其羞愧和善后的，依旧是人类，也只能是人类。

标签: LM MODEL S

内容由作者提供，不代表易车立场

收藏成功 ! 去易车app查看收藏文章

猜你想看

+加载更多

小鹏P5

端到端与 VLM：智能化新一轮“军备竞赛”又要到来？

一、新的思考

- VLM 是什么？

- VLM 起到什么作用

- 与端到端打配合

二、命途各异

- 所以呢？

猜你想看

本田高端MPV加入“价格战”，近5米大7座，才卖17万，一公里4毛！

全新起亚嘉华MPV登场，尽享大七座舒适之旅

续航超800公里电动重卡！三一新能源重卡世界范围内“遥遥领先”

日常用车安全、品质更重要，电车究竟怎么选

雷诺推出首款Alpine电动汽车

无极CU525 都市版售价很“6”仅需：26666元

奔达金吉拉450 仅仅：26900元

宝马国内现役加速最快！新款M5全球首发：727匹+1000牛米扭矩

为什么大家都选拉力车，因为，拉力车减震好，轮子大

中国一汽赠送中国国家队赛时保障用车交付仪式圆满完成

低风阻高颜值！小鹏MONA M03 怎么做到的？

新一代宝马M5即将亮相

凯迪拉克IQ傲歌Super Cruise使用体验

奥迪Q6L e-tron亮相这次的车灯又有什么黑科技？

原车卤素灯对比1000多的LED透镜，到底哪个效果好？

极星3新添后驱单电机版，售价将有大惊喜

对于10年以上的老车，卖的话不值钱，若是留着自己开，年审咋办？

一汽红旗携手奥运健儿，在巴黎展现大国风采

智界S7：豪华与科技的结合，夏日冷静驾驶的首选

排行榜

相关资讯

小鹏P5

端到端与 VLM：智能化新一轮“军备竞赛”又要到来？

一、新的思考

- VLM 是什么？

- VLM 起到什么作用

- 与端到端打配合

二、命途各异

- 所以呢？

猜你想看

活动推荐

相关车型

小鹏P5

排行榜

相关资讯