浏览易车国际站
您是否想浏览中国自主品牌出口车型,可以为您切换到易车国际站。
添加图片
3月18日,在NVIDIA GTC 2025大会上,理想汽车自动驾驶技术研发负责人贾鹏正式揭晓了下一代自动驾驶架构MindVLA(视觉-语言-行为大模型),并发表题为《VLA:迈向自动驾驶物理智能体的关键一步》的主题演讲。这一技术突破标志着自动驾驶从“规则驱动”迈向“认知驱动”,汽车将不再是冰冷的机器,而是具备感知、思考和适应能力的“专职司机”。
MindVLA:物理世界与数字智能的融合体
MindVLA是全球首个将空间智能、语言智能与行为智能深度融合的机器人大模型。其核心在于通过统一架构赋予车辆类人的多维认知能力。借助自研的“3D高斯”表征技术,系统能够高效解析复杂环境的几何结构与语义信息,例如精准识别道路障碍、商铺招牌甚至用户拍摄的随机场景照片。与此同时,基于混合专家架构(MoE)的大型语言模型基座,MindVLA模拟人类“快慢思考”的决策机制,既能快速响应突发路况,也能在复杂博弈场景中完成深度逻辑推理。
在行为生成层面,MindVLA引入扩散模型(Diffusion)优化驾驶轨迹。这一技术仅需2-3步即可生成安全且高效的行驶路径,并动态适应交通参与者之间的交互博弈。例如,当车辆在无地图的商场地库中寻找车位时,系统不仅能自主规划路线,还能在遇到死胡同后主动倒车、重新探索,全程依赖实时空间推理而非预设导航数据。
技术突破:从仿真学习到实时交互
MindVLA的竞争力源于其全栈自研的底层技术创新。理想汽车构建了云端统一世界模型,通过融合三维场景重建与生成式预测,打造出接近真实的仿真环境。自动驾驶系统可在此环境中进行大规模闭环强化学习,真正实现“从错误中学习”。例如,过去一年中,团队将3D高斯场景的训练速度提升7倍以上,显著加速了算法的迭代优化。
为平衡模型规模与实时性能,MindVLA采用稀疏注意力机制与并行解码技术,确保车端毫秒级响应。此外,通过人类反馈强化学习(RLHF),系统能够对齐人类驾驶偏好,例如在激进与保守风格之间动态调整,甚至根据用户指令“开慢些”即时改变行车策略。这种“语言-行为”的无缝衔接,使得用户可通过自然对话直接操控车辆,如“绕开拥堵”或“寻找最近的充电桩”。
用户体验:汽车成为“听得懂、看得见、找得到”的伙伴
MindVLA的落地将彻底重塑人车交互模式。用户无需依赖固定指令或地图导航,仅需用日常语言与车辆沟通。例如,在陌生园区说出“带我去超市”,车辆便能自主探索并定位目标;若在地库遗失车辆,上传一张环境照片,系统即可反向识别位置并自动驶至用户身边。
贾鹏在演讲中特别演示了无地图自主泊车场景:当用户要求“找车位停好”时,车辆不仅能推理空间逻辑、避开障碍,还能在狭窄区域灵活完成倒车调整。这一能力打破了传统自动驾驶对高精地图的依赖,展现出MindVLA在未知环境中的强适应性。
行业愿景:自动驾驶的“iPhone时刻”
理想汽车将MindVLA定义为汽车行业的“iPhone 4时刻”——它不仅是一次技术迭代,更是交互范式的革命。通过打通物理世界与数字智能的边界,MindVLA为机器人、智慧城市等领域提供了可复用的技术框架。未来,这一架构或将成为物理人工智能的通用底座,推动多行业协同进化。
目前,MindVLA已进入大规模闭环测试阶段,计划于2026年实现量产搭载。当汽车进化为“能思考的智能体”,人类与交通的关系也将被重新书写——驾驶不再是任务,而是一场与智慧伙伴的自然对话。