与商汤绝影王晓刚的对话揭示了全新的端到端车载体验的到来,标志着一次创新的维度压缩攻势的启动。
编辑日期:2024年07月12日
汽车制造商未能充分预见人工智能技术的复杂性。将端到端技术与传统方法对比,可类比为人类大脑的普适性相对于动物的独特优势。商汤科技的联席创始人及首席科学家王晓刚博士如此阐述当前自动驾驶领域的热门话题,他同时也是商汤智能汽车业务“绝影”的领军人物。
在2023年全球计算机视觉盛会CVPR上,由王晓刚领导的商汤技术团队荣获最佳论文奖——UniAD。这一成就可能成为中国自动驾驶历史上的一个重要标记,标志着新的竞赛阶段开始:中国首个集感知与决策于一体的自动驾驶通用大模型诞生。
UniAD体现了以整体任务为导向的一体化设计,不局限于对既有技术的改进。此外,它很可能成为首个在中国实现商业化落地的端到端自动驾驶系统——在商汤科技楼下,测试车辆频繁穿梭。
据王晓刚透露,许多汽车制造商已显示出强烈的合作意向。自去年CVPR最佳论文发布以来,商汤绝影致力于推进UniAD的商品化与工程化,从数千行代码演进为符合汽车行业标准的量产产品。对于大多数自动驾驶公司而言,这已是终极目标,也是最艰巨的挑战。成功交付端到端产品意味着能继续前行,后续可通过OTA升级优化功能与体验。
然而,商汤绝影并未止步于单一自动驾驶模型,而是推出了两项创新技术与应用:自动驾驶大模型DriveAGI和车载AI Agent。这两项技术在北京车展期间提及,并在最近的WAIC人工智能大会上由王晓刚博士再次强调。
它们源自同一创新源头,同为商汤科技的原生多模态大模型,并且都以UniAD端到端模型为根基,紧密关联自动驾驶和智能座舱的性能与用户体验。例如,DriveAGI能在没有高精度地图的情况下,甚至面对未知目标也能通过视觉感知理解路况,娴熟执行大角度转向、避开障碍物如占道车辆和施工区,以及绕行慢跑者等复杂驾驶任务,仿佛拥有与人类相似的驾驶技巧。
当遇到紧急车辆如救护车,DriveAGI能自动让行;面对潮汐车道或公交专用道,它能依据交通规则自动调整行驶路线。
此外,DriveAGI还能适应不同驾驶风格。如果你赶时间,它可以加速行驶;如果你想享受轻松旅程,它又能提供平稳的驾驶体验。这表明,多模态的智慧让驾驶和座舱体验首次实现无缝协同,开创了智能汽车交互的新纪元。
如今正值欧洲杯期间,你可以对车载智能助手说:“找个地方吃饭,还能看球赛。”商汤绝影的多模态车载AI系统会将指令分解为三个阶段:首先,从小红书收集用户评价,基于你的口味和位置推荐餐厅;然后在美团上为你预订;最后,开启导航指引DriveAGI前往目的地。
王晓刚指出,整个任务流程,从细分任务到调用不同应用程序、信息整合及操作执行,全部由多模态模型一次性完成,无需针对特定应用或任务进行独立优化。这个模型就像智能座舱中的全能助手“贾维斯”,所见即所得。在智能驾驶领域,它扮演着“点读机”的角色,能对图像和视频数据进行精准解读,即使是不熟悉的场景也能提供清晰的解释。
商汤绝影的端到端理念与业界常规思维存在根本差异:它超越了应对自动驾驶挑战的层面,将目标提升至在车辆中应用人工智能通用智能(AGI)的高度。有人质疑是否过早,但王晓刚坚信现在正是AGI应用于车载系统的恰当时机,甚至有些紧迫。端到端意味着全程AI化的驾驶过程,传感器数据直接转化为决策信号。这样能使AI模型直接学习成熟的驾驶技巧,理论上可达到人类驾驶水平。
这一变革性理念对传统自动驾驶技术构成冲击,以数据驱动取代规则驱动,克服系统性能瓶颈,减少后期高昂的维护成本。尽管众多参与者正竞相追逐这一愿景,多数产品仍采用“两段式”方法,即在感知模型后附加决策和控制模型。然而,商汤绝影坚定地推行真正的端到端模型,只需输入视频,即可得到预测轨迹。
王晓刚指出,两段式方法存在信息流失的缺陷,且后续的决策控制模型规模过小。他认为,小型模型无法具备应对复杂情况的普遍适应性,因此无法孕育出类似自动驾驶ChatGPT的功能。真正的端到端模型应是大型的原生模型,这有助于推动自动驾驶从感知向理解的进化。
商汤绝影的DriveAGI应运而生,它将商汤的多模态核心技术应用于车载系统,能同时处理文本、语音、图像等多种数据。这相当于为端到端自动驾驶系统赋予了一个与人类认知相似的智能大脑。
核心理念认为,既然大型语言模型已接近人类的学习和认知水平,那么为何不将这类模型的框架应用到处理各种数据类型的任务中?这实际上是利用大模型的语义解析能力来解读和识别各种形式的数据,如图像、视频等。
当前流行的观点是,只有端到端才能实现真正的无图驾驶,但这种观点忽视了系统需具备理解世界的能力,而这超出了狭义端到端模型的能力范围。实际上,业内专家普遍认为,目前不存在完全的无图驾驶,各种方案都会使用到相关图像信息。
“端到端”被比喻为一个黑箱,其决策过程对外界来说是个谜。在此背景下,商汤绝影提出的最佳策略是利用多模态大型模型的通用人工智能能力,以解决自动驾驶的认知挑战。
王晓刚提到,商汤早在2021和2022年间就已经尝试建立大规模感知模型,拥有320亿参数,堪称全球之最。尽管模型规模宏大,数据输入丰富,但其主要任务局限于识别基础对象如车辆、人物和边界框,处理复杂数据的情景并不多见。换句话说,模型的注意力集中于它被训练去识别的内容。动态对话中,王晓刚的见解揭示了全新的端到端视角。
ChatGPT的语言模型创新性地颠覆了世界,预示着各种行业生产力可能发生的深刻变革,它的训练方法超越了传统的识别任务。过去的语言模型通过翻译或意图理解等定向任务训练,无法复制ChatGPT的成就。
人类与动物的能力界限鲜明。“在特定任务上,人类或许不如猫科动物敏捷,嗅觉不及犬科,但这些动物只能在特定领域表现出色,不会发展出更广泛的能力。”
然而,人类的大脑赋予我们通用性,持续学习新技能,创新工具,创造出远超动物能力的成果。商汤绝影为何在此时强调AGI?王晓刚指出,目标是催生智能汽车的智慧大脑,为自动驾驶提供“阅读器”,绘制无需高精度地图的“高精度地图”,并革新智能座舱的交互体验。
解决自动驾驶和智能座舱体验的技术瓶颈后,多模态大模型在车辆上的应用将释放AGI的巨大潜力,催生更多创新应用。因此,“智能汽车”将超越当前的范畴。
商汤的智能汽车业务绝影,实则是其追求AGI布局过程中崭露头角的一项技能。2016年,商汤因在AI视觉领域的声誉,被本田选为在中国开展智能驾驶合作的对象。2017年底,双方公开宣布合作,商汤坚定地将AI技术引入汽车行业。
当时,商汤科技推出的创新产品已经展现出与业内其他公司的显著差异。其核心技术在于SenseAuto Empower绝影赋能引擎,提供了一整套工具链,包括算法库、数据管理、回流测试和仿真评估系统,使汽车制造商能自由定制解决方案。更重要的是,该系统集成了商汤最顶尖的视觉感知技术和基于大模型体系的AGI(通用人工智能)能力。
自2018年起,商汤开始构建SenseCore商汤大装置这一算力基础设施,至2024年第一季度,总计算能力已达到12000 petaFLOPS。因此,当2021年商汤的智能汽车业务以“绝影”品牌首次公开时,它已成为拥有超过30家汽车企业合作伙伴,智能驾驶和智能座舱方案预装量达2000万辆的关键市场参与者。
然而,商汤绝影的定位与众不同,不局限于提供单一的自动驾驶技术或智能座舱产品,而是将汽车视为实现AGI能力的平台。凭借在AI领域的深厚根基,特别是在计算机视觉方面的专长,商汤已在互联网和城市等多个领域验证了其技术应用,并在实践中认识到AGI是应对各行各业复杂问题的理想解决方案。
在此过程中,商汤逐步构建了“日日新大模型体系”,涵盖了大语言模型、图文生成/视频模型和多模态模型等,能处理多种开放性任务,率先接近了通用人工智能的边界。据王晓刚的观点,将积累的AGI和大模型能力应用于实际场景,汽车领域是最理想的切入点。
随着AGI理念的转变,现在不再针对特定任务开发训练模型,而是训练出一个具有巨大潜力的强模型,然后以此为基础,不断解锁和优化各种新功能。
以OpenAI的最新模型ChatGPT-4o为例,它呈现了全面的多模态整合能力,但在实际应用上,手机作为主要展示平台,其设计侧重于大屏幕和以文本输入及视听被动接收为主的交互体验。然而,对于多数用户而言,通过手机与AI进行对话或用手势、表情交流并不自然,这也是苹果的Siri迟迟未能普及的原因之一。
然而,智能汽车却是一个天生适合语音和图像互动的主动式平台。在商汤绝影的视角里,虽然人形机器人可能是未来AGI广泛应用的候选,但在接下来的十年里,考虑到设备部署的规模和自然的交互方式,智能汽车无疑是AGI实现落地的最佳领域和形式。
王晓刚指出,构建通用AI大脑的2.0时代面临着全新的挑战和门槛。首先,基础设施的投入巨大,需要数千块计算卡进行定向训练,并且训练过程中的数据配置极具技术含量,几乎依赖于大量的资源和专业知识。例如,增加一个模态到多模态模型中,难度会呈指数级上升。当语言模型结合图像模态时,语言处理能力可能会显著下降,因为匹配的图文数据稀缺且标注质量不高,导致模型性能下降,需要额外的努力来恢复其效能。
随着AGI的发展,尤其是在自动驾驶领域,面临的困难愈发严峻,由于缺乏开源资源,团队必须独立解决各种难题。因此,端到端自动驾驶的技术壁垒不断提高,未来能应对这一挑战的团队将会越来越少。
当前,许多汽车制造商尝试自主研发人工智能,这在王晓刚看来并不出奇。他们或许能利用开源模型取得初步成果,但他们可能低估了AI技术的复杂性。虽然将规则控制简化为单一模型看似直观,但实际上要创造出一个持续优化用户体验和功能的出色产品,挑战非常大,因为这需要不断的高额投入。
因此,王晓刚指出,目前车企与AI公司的合作模式仍有待完善,需要更多的协作与创新。目前的合作方式是,一旦发生问题,车企要求AI公司迅速修复,但这限制了对底层数据的深入探究,阻碍了新功能的开发和竞争优势的建立。
进入通用人工智能(AGI)时代,合作模式应超越传统的制造商购买、供应商供货及售后服务结构。王晓刚提出,商汤绝影愿意开放技术,协助车企理解并掌握大模型技术,以促进双方共同开发,加快产品升级,构建以用户为中心的先进AI解决方案。
同时,绝影作为策略伙伴,期望与车企共享信息和非隐私数据,以优化车载AI模型,实现互利共赢。这一共识的达成至关重要,因为具备强大AI实力、大规模GPU资源和终端数据的特斯拉FSD,可能在一至一年半内进入中国市场。
对此,王晓刚表达了他的忧虑:中国车企和科技公司的合作不应仅限于解决故障,而应追求更深层次的创新与融合。
我们正在积极寻求在多模态智能交互和AIGC等尖端大模型领域的创新合作机会。与商汤绝影的王晓刚的交流展现了前所未有的全程一体化解决方案。