你的浏览器版本过低,可能导致网站不能正常访问!为了您能正常使用网站功能,请使用这些浏览器。
chrome
Firefox

工具栏

AI大模型上车,商汤成市场“宠儿”

一家公司的基因,往往会决定它的路径选择。

商汤绝影脱胎于“AI四小龙”之一的商汤科技,在布局汽车赛道上,它的使命是将AGI融入汽车产业。

2024北京车展,大模型上车成为本次车展上的新潮流,众多车企和科技公司都纷纷发布了自身在AI大模型领域的布局,商汤绝影也携系列原生态大模型及相关产品矩阵亮相。

其重点展示了面向量产的真·端到端自动驾驶解决方案UniAD(Unified Autonomous Driving)的道路测试表现,以及以多模态场景大脑为核心的AI大模型座舱产品矩阵与全新座舱3D交互演示功能。

值得一提的是,目前行业最火的车型之一小米SU7,其智能座舱中小爱同学的车载语音场景的应用,就是基于商汤的“日日新”大模型打造。

商汤入局汽车行业时间并不短,早在2016年,商汤就已开始参与本田自动驾驶项目,并且一直是智能座舱领域的头部供应。据商汤发布数据显示,其座舱AI软件的市场份额连续5年位列行业第一。

2022年底,商汤提出行业首个感知决策一体化自动驾驶通用模型UniAD,并荣获2023年国际计算机视觉与模式识别会议(CVPR) 最佳论文,实现中国端到端自动驾驶方案从技术创新到车端部署的关键突破。

目前,依托自身在AI领域的技术经验积累,商汤已经构建了驾-舱-云三位一体的通用人工智能(AGI) 技术架构,打造了智能驾驶、智能座舱和AI云的多元产品体系。

截至2023年12月,商汤绝影已与本田、比亚迪、长城、广汽、红旗、极氪、哪吒、奇瑞、蔚来等超过30家国内外车企携手合作,覆盖超90款车型,累计交付195万辆智能汽车。

而随着AI大模型时代的来临,以及AI大模型上车浪潮的来临,或将进一步加深商汤在汽车行业影响力。


01

AI大模型上车,先落智能座舱


智能座舱,成为AI大模型上车的第一站。

商汤此前已经在智能座舱领域,积累了在人脸识别、视线追踪、头部姿态、动作识别、物体识别等多方面的底层技术能力,能够为车企提供多层次、全方位的一站式智能座舱产品解决方案,包括驾驶员感知系统(DMS)、车舱感知系统(OMS)、车外近场感知系统和AI大模型座舱产品体系。

而此次北京车展上,商汤则现场展示了其基于多模态大模型、大语言模型、文生图模型等能力组合,构建的以多模态场景大脑为核心的一系列全景感知、主动关怀且富有创造力的大模型座舱产品。

区别于传统智能座舱设计往往以单点功能为主,不同功能之间相互独立,用户体验不够流畅等特点,商汤智能座舱产品解决方案,以多模态场景大脑为核心,能够将多个汽车垂类AI大模型产品进行打通,将离散的单点功能聚合在一起,从而为用户提供更多深度个性化的主动关怀和服务。

其中,商汤绝影AI大模型座舱产品的基础功能,是能够基于地理位置推荐符合用户喜好的餐厅、介绍用户感兴趣的外部自然景物,并进行优质景点推荐。

同时,凭借强大的多模态感知能力,搭载商汤绝影方案的车辆能够准确感知并识别车外的信息,包括周围车辆的车型、标志性建筑物等,并能够通过语音、图片或者视频等方式为舱内人员提供更为准确和全面的内容,帮助用户了解和掌握外部环境信息。

当然,大模型上车的能力不止于此。

比如在出行场景中,商汤绝影“场景大脑”能够根据对于用户行程安排和实时交通数据的精准分析,结合用户的表情和语气,及时发现驾驶员可能面临的迟到风险,并提供两条可选路线与预计抵达时间,用户可通过手势或语音命令进行确认。

此外,以多模态场景大脑为核心,商汤绝影还能提供更多基于汽车场景的AI大模型座舱产品。

比如,以商汤“大医”医疗健康大模型为桥梁的“旅医”,可以让用户在座舱内获得专业及个性化的健康管理服务。基于AIGC大模型技术的“神笔”,可以把用户简单的绘画线条转变成具有美感的艺术作品,增添驾乘乐趣。

值得一提的是,“旅医”这个健康管理的大模型产品,是以“大医”医疗健康大模型为桥梁,联结健康检测及医疗生态服务,首次在座舱内对用户进行专业及个性化健康管理服务,实现健康咨询、在线挂号、检测、报告解读、用药咨询、健康科普等一系列服务。

目前,商汤绝影也在推进AI大模型座舱产品的量产落地,现已上车多家主流车企的量产车型。除了小米SU7外,商汤官方还表示,商汤绝影已经和一家国内领先的新势力车企深度合作,将进行多模态大模型部署上车。

除AI大模型座舱产品外,商汤还带来两大全新座舱3D交互:3D Gaze高精视线交互和3D动态手势交互。

其中,商汤绝影全球首创3D Gaze高精视线交互,通过提升视线的精度,能精准识别到驾驶员注视中控屏或者后排用户看向后排屏幕的具体的某个图标并进行交互,实现“所见即所选”。而3D手势交互功能,则将给车内用户带来高精度、高稳定性、快速响应的全新交互体验。

据了解,商汤绝影已经实现这两大舱内3D交互功能相互配合,如同Vision Pro“裸眼上车”,革命性改变了座舱交互的方式。


02

感知决策一体大模型将是最优解


AI大模型上车的第二站,自动驾驶。

随着智驾的落地场景从高速进入城区,道路环境的复杂度急剧提高,对于传统智驾方案来说,无保护左转等城区复杂场景挑战非常大,需要多传感器融合感知且大量投入资源来解决各种长尾问题。

同时,当前自动驾驶算法的主流架构方案是以工程师人为定义的手写规则为基础,依靠感知、决策、规划等不同模块的相互配合来实现自动驾驶。

但由于每个独立模块之间的数据是逐级传递的,必然会存在信息的丢失和误差,且前一个模块的误差会影响到下一个,多个模块之间的信息误差会不断累积,进而影响到自动驾驶方案的整体效果。

有限的规则终究无法完全覆盖无限的复杂场景和长尾问题,传统智驾的天花板已经开始显现。

想要从感知开始就实现信息的无损传递并打破传统智驾的天花板,必须要有一个全新的算法范式,而端到端模型正在为自动驾驶开辟出了一条全新的技术路线。

有别于传统的智驾算法,端到端自动驾驶方案是指以最终的驾驶性能为目标,通过一种集成化的方式处理自动驾驶任务,从感知到决策再到控制的整个流程都依靠Transformer神经网络模型完成。

但是,市面上不少端到端方案是在感知和决策两个模块分别搭建一个大模型框架,更容易实现落地,但“两段式”端到端方案的感知和决策两个模型之间传输的信息是人为定义的显性信息,数据传递仍然会有过滤和丢失。

此背景下,商汤绝影推出将感知、决策、规划等模块整合到一个全栈Transformer端到端模型的解决方案UniAD,其能够实现感知决策一体化,不需要对感知数据进行抽象和逐级传递,“所见即所得”,将原始信息直接输入到端到端模型中,然后以自车轨迹规划为准进行指令输出,实现真·端到端自动驾驶。

具体来说,搭载UniAD端到端自动驾驶解决方案的车辆,仅凭摄像头的视觉感知,无需高精地图,就可以通过数据学习和驱动,实现像人一样观察并理解外部环境。

然后基于足够丰富的感知信息,UniAD还能够自己思考并作出决策,能够像人一样开车,并实现流畅进行无保护左转、快速通行人车混行的红绿灯路口,自主解决各种高难度的城市复杂驾驶场景。

不仅如此,在传统方案较难突破的无中线的乡村道路上,UniAD同样可以自如行驶,完成包括大角度左转上桥、避让占道车辆及施工区域、绕行跑步行人等一系列高难度操作。

除了UniAD外,商汤绝影还在北京车展上发布了下一代自动驾驶技术-DriveAGI的前瞻预览,它是基于多模态大模型对端到端智驾方案进行改进和升级。

据介绍,DriveAGI是自动驾驶大模型从数据驱动向认知驱动进化,超越司机的概念,加深其对于世界的理解能力,具备更强的推理能力、决策能力以及交互能力,是目前自动驾驶中最贴近人类思维模式、最能理解人类意图并有最强解决驾驶困难场景能力的技术方案。

不仅如此,DriveAGI是基于多模态大模型打造,还具有强大的交互能力,可以让用户在座舱内进行自然语言指令的交互和驾驶控制,在体验上进一步做到可感知、可交互、可信赖。

对于未来自动驾驶的发展趋势,商汤认为,拥有更高能力上限、更快迭代效率、更低系统成本的感知决策一体大模型将是真·端到端智驾的最优解。

原因在于,一方面,端到端自动驾驶大模型最明显的优势就在于信息的无损传递,可基于原始信息进行学习、思考和推理,最终能像人一样综合理解复杂的交通环境,并且能够不断成长,有着更高的能力上限。

同时,依赖数据驱动的端到端方案能够将其学到的驾驶能力和技巧迁移泛化到其他场景当中,具备更快的迭代效率,帮助车企更快速实现全国都能开的目标,无论是城区还是乡村道路。

另一方面,则在于端到端自动驾驶大模型可以像人一样感知和理解外部环境,只需要导航信息就可以把车驾驶到目的地,天然就能帮助车企降低软硬件成本。

未来,端到端方案依靠持续算力投入和高质量数据学习的高效范式,将取代单纯依靠人力堆砌、耗费时间的低效模式,成为自动驾驶在AGI时代的关键能力。


03

AI大模型快速上车的背后


AGI的突破掀起技术范式的革新,坚实的核心研发能力成为行业竞争的关键。面向通用人工智能的未来,商汤绝影还在进一步探索舱驾融合,以实现智能驾驶和智能座舱在硬件、软件及应用层面的全面融合。

而这背后,则离不开商汤在算力、数据、软硬件架构等底层基础设施领域的技术积累。

数据层面,端到端自动驾驶的训练需要高质量视频数据,主要是各种长尾场景,如逆行车辆、横穿的非机动车、“鬼探头”行人等,现实世界中采集难度很大,很多企业虽然有很多数据,但大多是正常行车的低质量数据。

商汤绝影通过实车采集、数据管线的清洗筛选能力,以及强大的仿真技术,可以通过添加障碍物等人为创造复杂场景,为UniAD提供持续进化和商业化落地的养分。

依靠世界模型,商汤绝影能够源源不断地生成自动驾驶环境下更为精细和复杂场景视频数据,然后用这些数据给UniAD进行有针对性的模型训练。

比如,世界模型能够生成人车混行、环岛路口等复杂城市场景,甚至可以复刻“8D”城市构造。

在算力层面,商汤从2018年开始布局建设AI基础设施。SenseCore商汤大装置是商汤大模型系列产品背后的AI基础设施,其能够以高达12000petaFLOPS的丰沛算力支持商汤绝影系列原生态大模型的高效迭代。

凭商汤大装置国内领先的算力资源,UniAD自动驾驶方案的高效训练学习和实车部署具备坚实的基础。同时,商汤打造的端云协同和舱驾融合的创新软硬件架构,则能够让智能汽车降本增效、涌现创新功能。

更为重要的是,在北京车展前夕,商汤科技发布了全新升级的“日日新SenseNova 5.0”大模型。

据悉,6000亿参数的“日日新5.0”采用混合专家架构(MOE),具备更强的知识、数学、推理及代码能力,成为国内首个全面对标甚至超越GPT-4 Turbo的大模型,多模态能力领先GPT-4V。

基于端云结合的架构,商汤端侧大模型大幅超越同量级大模型,越级比肩7B、13B大模型,更适合车端部署。

商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚表示:“未来汽车智能化的竞争,本质上是通用人工智能技术融合应用的比拼。”

当下,商汤已经为大模型的应用上车做好了技术储备,但面向未来更加激烈的智能化竞争,商汤也仍需要更多落地的车企案例,来不断为自身实力做证明。

标签: 小米SU7

内容由作者提供,不代表易车立场

收藏

收藏成功 ! 去易车app查看收藏文章

猜你想看

+加载更多

活动推荐

广告
  • 奖 
  • 抢 
  • 奖 

CopyRight © 2000-2023 BitAuto,All Rights Reserved. 版权所有 北京易车信息科技有限公司    购车咨询:4000-168-168 (周一至周日 9:00 – 21:00) 法定假日除外