刘澍泉对话周光：端到端推动高阶智驾进程

作者：十点侃侃车儿
2024-05-17 11:01
493

随着人工智能浪潮的发展，端到端模型在自动驾驶领域崭露头角，通过将感知、规划、决策等关键模块整合到统一的神经网络之中，让自动驾驶更像人类司机一样驾驶，进一步推动了高阶智驾的量产进程，也随之催生了对数据、算力等底层基础设施的新需求。

近期，元戎启行CEO周光邀请腾讯智慧出行副总裁刘澍泉，在北京市区道路上体验了双方合作打造的业内首个“无图”（仅使用导航地图）高阶智能驾驶量产方案，并围绕自动驾驶量产、人工智能2.0时代等话题展开了一场精彩对话。

周光认为，智能汽车是打开物理世界通用人工智能的钥匙。智能汽车是人类首个达到千万级数据体量的机器人，对物理世界形成了海量共识的理解，将沉淀形成一个物理世界的基础模型，未来也会更容易迁移到其他机器人场景。周光表示，元戎启行一直顺应人工智能的发展，在端到端、大语言模型、生成式AI为核心的人工智能2.0时代，元戎启行能够早于行业多数人意识到并发掘这个事情，是一种来自于技术上的直觉。

面向自动驾驶领域，腾讯扮演的是一个比较纯粹的数字助手角色。刘澍泉表示，腾讯面向行业提供自动驾驶云、合规云以及地图相关的服务。希望和众多的合作伙伴，把整套的云加端的一个架构打通，从而通过高速的迭代、数据训练不断优化算法。

在今年1月份的CES期间，元戎启行与腾讯宣布在地图领域达成合作，推出了行业首个仅使用导航地图数据的高阶智驾量产方案，预计将于今年投入消费者市场。

以下是双方对话节选：

智能汽车是打开物理世界通用人工智能的钥匙

刘澍泉：今年越来越多有智能驾驶功能的车上市，而且价格在不断的下探，迭代在加快，整体的这个技术路线、方案路线慢慢开始趋同了，我想听听你的看法。

周光：经历了一年“无图”的方案，我觉得已经形成了行业的共识了，我们的这个方案是业内首个仅使用导航地图的自动驾驶方案，能够提供非常优质的城市NOA自动驾驶体验。

我们做了泛化测试，涉及了大概数十个城市，整体来说，我觉得腾讯地图的数据的质量还是挺高的。但可能在一些个别的城市，我们还是会有一些更新的问题，一些像二线、三线城市，它们修路的速度比较快，它的道路拓扑结构改变了，这种可能还需要做一些更新。但我相信随着高阶自动驾驶量产，有了实时的反馈，地图的更新也会更快。

刘澍泉：其实这就是腾讯所谓的云图一体嘛。通过这种云加端的架构，当车辆发现物理世界的差异，实时地把这种差异传回到云端，我们再做更新地图下发下来。

刘澍泉：要怎么理解，智能汽车是打开物理世界通用人工智能的钥匙呢？

周光：其实更早一点的自动驾驶系统，是经典机器人，都有感知决策定位模块。这些模块都是特殊针对这个场景所设计的，缺乏了实际上的通用性。而端到端的智能驾驶系统是由神经网络驱动的，包含感知模块、决策模块，通过神经网络、向量矩阵直联，并没有预先定义好的接口，所以它也是适用于机器人的。

我认为人类首个能达到千万级的机器人就是智能车，其他的机器人是不可能有这么多海量数据的，当你有了千万级的海量数据之后，慢慢地你会对物理世界形成一些共识的理解，你会对这个物理世界有一个基础模型，以后把这个模型迁移到其他机器人场景是更加容易的。

刘澍泉：元戎启行是准备怎么达成这样的目标呢？

周光：这不是一步就能达到，其实我们也前前后后经历了非常多的阶段，第一个阶段就是多传感器前融合，而且做了点云渲染。

但是在那个时间点上，其实还没有想到居然会成为端到端的一个环节。比如说今天我们这个车有七个摄像头，一个激光雷达。在前融合阶段之前，它需要有不同的七个算法，都去负责感知，然后做后端的融合，再去开这个车。做前融合实际上是把所有的东西放在一个坐标系里面，用统一的算法来做感知识别。

前融合是第一步，第二步是去高精地图。高精地图其实是能帮助我们做高级的语义判断，比如说像今天我们开车，不仅仅只是要看周围的100米，可能你需要知道这个路的曲率等比较难的任务，都是交给这个地图了。随着人工智能的发展，我们意识到，下一步其实我们是可以通过神经网络把静态元素、道路拓扑全部都复现，就有了这个“无图”的方案。

元戎启行从2020年初期开始的，前前后后经历过两年的时间，在2022年首次达到了一个相对还可以的效果，在2023年我们就把所有的动静态的感知放在同一个神经网络里面做。但是在那个点上我们就意识到了我们一直都要做减法。于是我们又做了下一件事：用数据驱动的预测决策系统。整个系统形成了两个模块，感知大模型以及规划决策大模型。

在去年年初的时候我们意识到，这两个模型其实通过这个神经网络直联，就是一个信息无减损的端到端结构。因此去年8月份就跑通了端到端，到今年3月份的时候，在NVIDIA的GTC大会上，我们对外官宣。

图、云一体化，为智能驾驶量产提供底层“加速器”

周光：刚才聊了很多关于元戎的端到端的技术，我现在也想问一下腾讯作为一个云商也是一个图商，怎么去面对这个赛道？腾讯的优势在于哪里？

刘澍泉：首先我们的战略定位是非常清晰的。腾讯做的是一个比较纯粹的数字助手角色，面向行业去提供自动驾驶云、合规云以及导航、地图相关的一些服务。

我觉得有几个比较有特色的服务：首先，刚才提到，我要有一个端到端的网络，但是在这个过程中你必须要有一个更精准的导航服务，它需要更精准的车道级的连接性，像腾讯从去年开始做的，也是双方把导航的能力和元戎端到端的大模型算法结合起来，去达到最好的调优状态。

第二点，自动驾驶相关的业务它是一个强数据驱动类的业务，所以它一定会需要更高的算力，更高的存储以及更广泛的网络覆盖，这一块是腾讯云的强项。我们把网络、存储、计算统一，能够做到更高的性价比，在这个方面也有一些优秀案例：例如和NVIDIA的合作、和博世的合作，当然也包括和元戎的合作。形成整体的一个数据闭环。我们特别希望和众多的合作伙伴，把整套的云加端的一个架构打通，从而通过高速的迭代、数据的训练再去finetune我们的这样一个算法。

顺应人工智能2.0时代潮流，端到端让自动驾驶更“有人味”

刘澍泉：实际上自动驾驶端到端的模型，它是把感知规控一体化的输入进来，最后得到一个更像人的一个决策结果，所以这个过程是一个偶然吗？还是说从一个学术发展也好，或者说技术演进里面有这样一个预判？有这样一个推导吗？

周光：我觉得是有这种感觉：就是说从一开始做融合、做BEV，都是你感觉这样是对的，但是你其实不知道终局的。因为当时那个点上还有这个高精度地图之争、后融合前融合之争，但是直到你看懂了端到端的时候你会发现，其实你所有的铺垫都是为了最后这一步——做一套端到端系统DeepRoute IO。

我们最大的优势就是我们一直顺应了人工智能的发展，尤其是人工智能2.0时代，2.0时代就是端到端、大语言模型、生成式，分别针对了语言的、数字生成式的以及这个机器人物理实践，我们能够早于行业多数人去意识到、去发掘到这个事情，然后去开始去投入布局。可以说这是一种来自于技术上的直觉。

刘澍泉：您提到了一个很重要的点，就是今天感知的模型规控模型之间的这个直通，在这一块的话你有什么可分享的技巧吗？

周光：我们做一个生物学的解剖：我们人脑肯定是一个神经网络，但是它也会分为感知、视觉和语言中枢各种模块。今天的端到端它也是由不同功能的模块构成的，只不过都是通过直联，这个直联其实牵涉到你的训练方法、你的训练步骤、你的数据，这个其实是今天的核心竞争力，真的不是那些网络。

刘澍泉：今天我们有了一个端到端的大模型，但是模型参数太多了，模型太大了，我们今天算力是受限的。怎么能够把它去合理的“减脂”，把它部署到车上呢？

周光：今天的端到端大模型它也并不是一个完全Transformer-based，所以说它对算力的需求相对来说没有那么大，另外来讲，一个端到端系统它并不意味着它一定就是大，像我们这次的产品叫DeepRoute IO，IO就是input、output（输入、输出），它只是讲你是input，然后我有output，中间没有人类编程而已。端到端跟大模型是两码事，会根据你数据的情况、你的网络的容量情况以及你要达到的场景情况，去选合理选择你的模型大小。当然你基本的这些模型优化裁剪，这就是一些基本功了。

刘澍泉：自动驾驶过程中经常遇到一些特殊场景，要面对车流、行人、自行车等等大量不确定的因素，像这种情况元戎有什么自己的独门绝技吗？

周光：之前的这种预测都是基于速度推断的，就是做一个匀速的假设或者做一些速度的二阶导，这是比较初级的做法，基于数据驱动的、基于端到端的这个预测，会是更加丰富的一个预测场景。比如说在一个安全岛上的一个人，可能你的预测是他不太会乱跳下来，但是在路口的一个人他可能就窜出来概率比较高，它会考虑整个场景的前后表现，这样车子开起来就很“有人味”。

刘澍泉：刚才，周光博士提到了打造物理世界通用人工智能大门这样的一个愿景，腾讯也有一个愿景：做好数字化助手、做好底层的云服务、做好底层的地图服务、做好大模型的基础设施，我们共同打造整体的一个合作伙伴体系，共同去打开物理世界的大门，我认为是我们的共同的一个伟大的目标。

周光：我觉得我们在整个的这个产业链、生态链、还要继续携手，然后一起共赢，向着目标前进。

标签: 高阶智驾智驾

内容由作者提供，不代表易车立场

收藏成功 ! 去易车app查看收藏文章