对话任少卿：世界模型是自动驾驶和机器人的新范式

编辑日期：2024年09月07日

与任少卿对话：世界模型是自动驾驶和机器人的关键

“AI的发展，本质上就是这两件事。”

整理者：一凡来源：副驾寺

与任少卿的对话，从一个基本的智能驾驶应用场景开始——

在北上广城市快速路上的限时段公交车道，智能驾驶系统如何像人类一样，在限制时间段内避开这些车道，而在非限制时段则高效利用它们？

在过去，AI系统会严格遵循人类编写的规则进行驾驶。但在当前端到端自动驾驶模型的范式下，手写规则的方法逐渐被淘汰，这意味着AI系统需要自行学习“限时公交车道”的特殊路况和场景。这需要时间，并且短期内可能无法直接满足需求。

因此，智能汽车行业内外是否过于迷信“端到端”方法了？

作为一项综合工程，自动驾驶为什么需要端到端？

端到端为何在此时出现？它的本质是什么？

它将对智能汽车的研发和行业变革产生怎样的影响？

以上问题，没有人比任少卿更有发言权。他是世界级的AI科学家，深度学习经典成果ResNet的作者之一，近十年来一直投身于产业一线，见证了自动驾驶技术从研发到实际应用的过程。目前，任少卿担任蔚来智能驾驶副总裁，负责蔚来的自动驾驶研发工作。

任少卿认为端到端是一种必然趋势，类似于造车的一体化发展。虽然存在技术难度，但并不存在独家秘籍，甚至“被过分强调了”。在他分享的四大关键技术要素中，模型只是其中之一——数据、优化机制和功能体验同样重要，四者缺一不可。

从他的角度来看，无论是AI还是自动驾驶，尽管近年来有所变化，但其本质并未改变。因此，他对许多业内热议的具体问题都有基于本质的回答。

以下是对话实录：

智能车参考：端到端如何识别公交车道，并实现按时段规避和利用？

任少卿：如果要实现非常精确的识别，还需要学习如何识别文字。目前，我们还没有加入识别文字的功能，更多的是依赖以往的经验数据，而这些数据中可能包含较多的噪声。

当前的系统一部分依靠历史经验，另一部分则基于实时感知。例如，如果旁边有一辆车进入了公交车道，系统可能会跟着进入；但如果周围一直都没有车辆进入，系统就不会选择进入。

我认为这是一个核心问题，需要我们去解决。

智能车参考：近年来，大家都在讨论端到端技术，许多公司全身心投入其中。如果我们不那么极端，只是编写一条规则告诉系统何时可以使用公交车道，这样来解决问题不是很好吗？为什么一定要去掉所有手写的规则呢？

任少卿：举个例子，在不同的城市，公交车道的规则会有所不同。在北京，公交车道的限制相对统一，通常是在早7点至9点以及晚5点至7点这两个高峰时段。但在其他城市，规则就五花八门了。例如，上海的71路公交车道，在任何时间段都不允许其他车辆进入，并且其红绿灯设置也与众不同。如果让工程师逐一处理这些问题，几乎是不可能完成的任务。

因此，第一个问题是这种情况非常普遍。以自动紧急制动系统（AEB）为例，原本有一套法规清单和测试标准，工程师们根据这些标准逐个案例进行调整。例如，他们需要判断前方车辆与自己车辆之间的角度。在测试过程中，为了提高通过率并减少误刹，工程师会设定：如果前方车辆的角度出现波动或超过某个数值，则不进行制动。然而，在实际驾驶环境中，车辆种类繁多，前车可能是形状奇特的车型，导致检测结果不断变动。

在这种情况下，AEB系统应该如何决定是否刹车呢？如果由人来编写这些规则，将耗费大量时间和精力，效率低下。过去，为什么大家没有考虑端到端的方法呢？因为在三五年前，当大家都在研究高速公路自动驾驶辅助系统（NOA）时，场景相对简单。在高速公路上，只需关注前方几辆车即可。

在处理前方车辆时，我们会将前车、左侧车道的一辆车以及右侧车道的一辆车共同纳入模型，并制定相应的规则来完成任务。虽然这仍然需要编写数万行代码，但总体来说，这一场景相对简单。

然而，当我们进入城市区域并需要实现主动安全功能时，情况就会变得复杂得多。例如，在城市交叉路口，可能会遇到各种角度、速度不同的两轮车，使得场景变得更加多样化且难以预测。

如果依靠人工逐一编写规则，不仅会面临效率低下的问题，还会导致效果不尽如人意。因此，端到端的学习成为自动驾驶技术中的核心解决方案。

如果我们跳出自动驾驶领域来看，端到端的方法同样具有重要意义，因为它追求的是更为统一的解决方案。事实上，除了自动驾驶领域外，其他领域很少提及端到端的概念。例如，在自然语言处理或机器人技术中，人们不会特别强调端到端的优势。

这是因为自动驾驶有着其独特的历史背景。在早期，由于算法模型能力不足，不得不将整个系统拆分成多个部分进行处理，就像制造业中的零部件生产与组装。随着技术的进步，如今的模型性能显著提高，使得我们可以将各个部分重新整合在一起。

这种整合类似于现代制造业中的一体化压铸技术，旨在提高时间和人力效率。对于自动驾驶而言，端到端的方法本质上是通过更加统一的方式来提升整体效率，包括时间效率和人力资源利用效率。

从更广泛的角度看，近年来人工智能的发展，尤其是深度学习领域的进步，主要体现在两个方面：一是提升效果；二是增强泛化能力。后者意味着用同一种方法解决更多不同领域的问题。

在过去的15年里，人工智能（AI）一直在进行两方面的迭代和发展。首先，AI逐步提高了其在特定任务上的表现。以人脸识别为例，最初AI在识别陌生人面孔方面远不及人类，但随着技术的进步，AI逐渐赶超了人类，并且现在在这一领域已经超越了人类的能力。类似地，在其他各种任务中，AI也经历了从落后于人类到最终超越人类的过程，这正是AI发展的第一个方向——性能提升。

其次，AI的发展还体现在通用性的增强上。比如，图像识别和物体检测最初需要采用不同的算法和框架来处理，但随着时间推移，这些功能被整合到了一起。如今，几乎所有图像类任务都可以通过统一的方法来解决，甚至图像类任务与语音类任务也开始趋于融合。同样，在自动驾驶领域，人们也在努力将各种智能体的任务（如自动驾驶汽车、机器人行走、机器狗爬山等）整合进同一套框架中，这就是所谓的端到端解决方案。

《智能车参考》：Transformer作为一种重要的工具，不仅提升了算法的效果，还带来了哪些变化？

任少卿：Transformer确实是一种工具，但更重要的是，AI的发展始终在追求两个目标：一是性能的提升，二是通用性的增强。即使没有Transformer，也会有其他工具出现来满足这两个目标。也就是说，无论具体工具如何变化，追求更好和更通用的方向始终不变。从这个角度来看，自动驾驶的端到端方案实际上是在某种程度上追求更好的性能。

此外，无论是自动驾驶还是其他与智能体或类机器人相关的任务，都希望能够通过相同的方式来解决。我认为这种趋势一定会继续下去，因为这是大家共同的目标。

《智能车参考》：三年前，我们讨论自动驾驶时还需要提到四个堆栈。当时有人提出要建立一个统一的模型，但那时还无法实现。这两年，大家普遍认为可以这样做，那么，这段时间内发生了哪些关键的变化？

任少卿：在这段时间内，最关键的变化在于技术的进步和算法的成熟。例如，Transformer的引入显著提升了算法的效果，使得许多之前难以实现的功能变得可行。此外，数据量的增加和计算能力的提升也为实现端到端的解决方案提供了坚实的基础。这些因素共同推动了自动驾驶及其他智能体任务的统一化进展。

任少卿：如果我们暂时不考虑算力问题，为了完成一项任务，首先需要的是数据。当前的算法依赖于数据，尽管有些人正在尝试开发小数据量的算法。但目前这一代人工智能算法无疑都是以数据为中心的。

现在面临的问题是，对于某项任务，我们可以标注一些数据，但并不需要大量的标注。而对于另一项任务，则需要大量的数据标注。因此，我认为这里的核心问题是如何统一数据的描述，并增加数据量。

然而，为了实现统一，就需要进行更为复杂的标注，这使得数据量的提升变得更加困难。同时，为了统一还需要更大的数据量，如果标注方法或训练方法无法处理如此大的数据量，那么就会出现无法负担更多标注、数据量也无法提升的问题。

过去由于无法统一不同领域的数据，也无法将这些领域的数据量扩展到足够大。例如，一个领域有1,000张图片，另一个领域也有1,000张图片，这样独立处理就变得相对简单。

目前的情况是，有了数据基础，可以不再独立处理。而要做到这一点的基础，一方面是数据量的增加，更重要的是数据标注方式的转变，即从人工标注转向自动化，最终实现无需标注，这是一个巨大的进步。

总结一下，原来的问题在于需要独立处理，因为存在两个限制：数据和算力。而现在数据和算力都可以支持，不再需要独立处理，而是可以合并处理。

从数据的角度来看，从需要标注到自动标注，再到无需标注，这是一个逐步发展的过程。自动标注与无需标注还不完全相同，而无需标注则是更理想的状态。如果能够彻底实现无需标注，并且算力能够应对更大的数据量，这就相当于将两者结合在一起处理，这是核心所在。

回到自动驾驶的话题，重要的一点是取消标注工作。

智能车参考：目前自动驾驶的标注成本达到了什么水平？

任少卿：自动驾驶在过去几年发生了很大变化，五年前标注一个框可能只需要几毛钱。

前两年，整个标注工作还需要投入成本，但通过自动化标注的方式，每两年效率可能提高100倍，三年内效率提升了上万到上百万倍。我们现在追求的是无标注的方法，即原始视频可以直接输入到模型中。

尽管自动标注提高了效率，比如从原本每个框需要五毛钱到现在五毛钱可以标注成千上万个框，但这仍然需要耗费时间。

我们现在希望实现无标注，也就是直接将原始视频送入模型。

智能车参考：目前用户很关注车企的智能驾驶是否采用端到端系统。

这有些奇怪，因为端到端的意义主要在于研发阶段，对厂商自身更为重要，而对普通用户来说意义不大。用户并不关心车辆是否采用了端到端系统，他们更关心的是车辆能否提供良好的体验。

任少卿：我认为这种现象主要存在于先驱用户或早期体验者中，这其实很有意思。首先，用户愿意关注这些技术细节是件好事。就像那些关心语言模型如何训练的用户，大家多了解这些也是有益的。

此外，我认为最近半年来功能热点不多，大家的关注点更多集中在产品应用方面，例如城区开放等。今年，几家头部企业的城区开放已经接近尾声，故事也讲得差不多了。对于早期用户而言，讨论这些话题仍然有意义，因为他们积极参与其中。

那么现在讨论什么呢？

似乎只能讨论端到端了？

我认为，未来可能会转向讨论点到点或者L3级别的自动驾驶，只是厂商尚未引导这一方向。

智能车参考：端到端系统对厂商的研发变革有多大影响？

对此有两种观点：一种认为汽车是一个系统工程，不应盲目相信端到端；另一种则认为这是一种新的范式，应该全力拥抱。

你是怎么看的？

任少卿：我觉得大家说得都有道理。我们并不是在使用二极管逻辑，这本质上就像大家使用开发工具一样，无论是编写代码、编辑视频，还是撰写文章。

以写文章为例，我们都在写文章，是否使用ChatGPT似乎并不重要。

使用后可能会带来一些额外问题，但如果用得顺手，可能会提高效率。

说你不用ChatGPT就落后了，或者用了它就过于激进——这些争论没有必要，因为每个人都可以选择适合自己的效率工具。

从长远来看，这可能是个趋势，但不同的人进入端到端的时间以及学习时间会有所不同。

智能车参考：端到端会如何改变你们的研发流程？

任少卿：这其实是一个模型化的问题，现在大家对此关注较多。

模型化对于自动驾驶来说，并非仅仅半年的事情。

自动驾驶最早可能在2013年就开始应用深度学习，这一比例逐渐增加，只是最近其他话题较少，所以被更多提及。

智能车参考：端到端是一个模型化的问题。

后来者能否通过使用开源模型并加入自己的数据，实现后发优势？

任少卿：这就像玩魔兽或星际争霸，本质上是你先暴兵还是先点科技的问题。

当你选择点科技时，意味着你将生产力和资源投入到技术上，暴兵数量就会减少。

也就是说，你的功能会少一些，用户体验细节也会调整得少一些。

智能车参考：所以你认为这是不同的选择问题？

任少卿：对头部玩家来说，这是一个长期问题，但也需兼顾短期需求。

技术总要进步，只是何时升级的问题。有人早升级，有人晚升级。

节奏难以预测，因为它与你的“种族”、资源、英雄选择及战术有关，所以大家按照自己的节奏来，最终看结果即可。

智能车参考：端到端会对研发要素产生什么变化，例如数据自动化等？

任少卿：这确实会带来一些变化，特别是在数据处理和自动化方面。

任少卿：我认为数据始终是关键。尽管大家对其重视程度有所不同，但总体方向并没有改变，人们肯定会越来越重视数据。不过重视的程度曲线可能会有所不同。

智能车参考：您有什么关于采用端到端方案的建议吗？

任少卿：我认为不需要过分强调端到端方案，这种强调有些过度了。本质上，这只是AI的一个应用。

人工智能的核心实际上有两个方面：一是基础能力，即模型和数据；二是对特定应用场景的理解。一部分人可能更关注通用技术栈，而另一部分人则更专注于领域知识。

智能车参考：因此，算法、算力和数据这三个要素并没有发生变化？

任少卿：现在的情况是，随着模型的发展，其通用性变得更强，这就要求我们升级技术栈。

智能车参考：那么，端到端方案是否会改变对自动驾驶好坏的评价标准呢？

任少卿：我认为好坏应由用户体验来决定，这与技术本身关联不大。只能说某些技术可能在实现某一功能时更为高效。

智能车参考：目前来看，评估系统好坏的标准主要还是基于数据层面，例如接管间隔的时间。

任少卿：是的，如果同一个用户在相同情况下接管意愿一致，那么接管频率或接管里程都是重要的参考指标。然而，不同用户的反应也各不相同，有些用户可能因感到惊吓或不安而优先考虑这些情况。换句话说，存在对安全性和效率的不同评判标准。

智能车参考：自动驾驶系统是否会像语言模型那样出现“无法区分9.11和9.9哪个更大”这样的常识性错误？

任少卿：确实会有这种情况，在语言模型中称为幻觉，在自动驾驶中则称为Corner Case（极端情况），即误检或漏检。

例如，当语言模型突然说出一句不合逻辑的话，或者自动驾驶汽车的感知模型突然丢失了一帧数据，甚至误识别出一个并不存在的物体，这些都是相似的问题。因此，自动驾驶领域较早地开始解决这类问题。

为了解决这些问题，通常采用时间序列的分段机制和校验机制。

对于语言模型而言，同样需要进行这种类型的控制，例如，COT（思维链）的一个核心逻辑就是让系统自我校验：通过生成更为复杂的输出表达，并自行进行校验。此外，还有诸如MOE等其他方法，以及在实际应用中的后端校验，这些都遵循相同的逻辑。总的来说，模型训练的目标在于使输出结果与人类的偏好保持一致。

对于错误的问题，可以通过多次校验来解决，这包括神经网络、非神经网络的方法，加上人工规则来进行校验，从而将错误剔除，使其变为正确的结果。例如，在使用聊天软件时，会将错误信息筛选出来，并告知用户该信息已被忽略。

在智能车辆的应用中，进入系统的视频数据不仅包含已标注的真实数据，还包括由世界模型生成的数据，类似于LLM中的合成数据。

任少卿指出，如果要定义一个任务，最终需要回答的问题是：所定义的任务具有多大的通用性。从自回归的角度来看，定义的任务越是通用和基础，在学术上就越有意义，应用价值也同样如此。

十年前，人们认为计算机视觉领域的三个基础任务是图像分类、检测和分割。可以想象，能够理解一幅图像，并对其进行分类、框选以及分割内部物体，确实是非常基础的任务。

然而，如今这样的基础定义已经不足。我们需要一个更加基础的问题。

在语言处理中，基础问题是预测下一个token（即下一个词）。视觉处理也是如此。

如果能够定义一个更加基础的任务来解决问题，那么由于其基础性更强，其应用范围也会更广泛。

智能车参考：用视频生成视频，这本质上也是一种对问题的全面覆盖吗？任少卿：是的，作为一项基础任务，其核心是要明确这一概念。因此，目前的定义是，利用视频生成视频更为基本，因为它能够涵盖所有其他的可能性。如果输出结果为视频，则可以完成物体识别任务，将视频中的物体提取出来；如果输出为分割结果，则可进行分割任务；如果输出为三维重建后的视角变化，则可执行三维重建任务。因此，从定义的角度来看，用视频生成视频是一个更为基础的问题。同时，我们认为，重建是对时空及原始数据理解最深刻的一种表现形式。因为需要重构出大部分原有的信息量，才能完成上述任务。

智能车参考：那么，当前的世界模型与早期的虚拟仿真，其本质区别在哪里呢？任少卿：我认为虚拟仿真实际上属于另一个范畴。它们分别是两个不同的领域，一个是计算机视觉，另一个是计算机图形学。前者致力于理解现实世界，后者则专注于创造虚拟视觉效果。不过，近年来这两个领域逐渐趋近。总体而言，全面理解世界是世界模型的目标。而现今也出现了一些基于原始视频进行仿真的方法，但它们并不旨在全面理解输入的内容，而是通过重构出某些元素来实现目标。然而，这种重构并不能代表整个世界的全部信息。因此，仿真的问题在于它不能完全包含世界的全部信息。例如，早期的游戏实际上就是一种仿真。尽管它们提供了一定程度的信息，但却缺乏许多细节。因此，仿真的挑战在于它虽不断接近真实世界，但仍存在一定差距。

智能车参考：蔚来在描述世界模型时，采用了类似人脑的方法，并将其分为两部分，这样做是为了便于听众理解，还是系统本身确实被分为了两个模块？

对话任少卿：世界模型在自动驾驶和机器人中的应用

任少卿：为了让听众更好地理解，我们会把概念拆解得很清楚。

但实际上，在实施过程中这些部分是相互关联的，并不是完全独立的。本质上，我们需要找到一些方法来处理这些概念。但在解释时，我们会将其分解得更为清晰，以便大家更容易理解。

实际上，在讲解第一部分重构时，我们实际上是在将数据重构成视频形式。这种重构包含了时间信息，只不过我们在举例时不会展示过长的视频。

当我们讲解第一部分时，重构可能只涉及一个小范围；而在讲解第二部分时，则会更加强调其时间跨度和变化。但事实上，这两部分是相互关联的。

智能车参考：您对生成式AI的关注度如何？

任少卿：我认为这非常好，最近这一领域的进展非常快。

我为什么会谈论世界模型，并朝这个方向发展？这是因为回到之前的讨论，端到端与非端到端只是智能驾驶领域的一部分讨论内容。

从技术角度来看，自动驾驶和机器人与大规模语言模型的融合是一个更为广泛的话题。

智能车参考：世界模型就是你们提出的一种解决方案？

任少卿：没错，这是一个更为通用的方法，既适用于自动驾驶，也适用于机器人。

而语言模型的后端架构也将采用类似的框架。当然，我们还有更为激进的方法，即融合所有领域，但这部分内容以后再详细讨论。

智能车参考：这个项目规模宏大，是否会遇到工程问题？

任少卿：确实会遇到许多工程问题。因此，我们现在所介绍的世界模型，更接近于下一阶段机器人、自动驾驶以及语言模型的基本框架。

智能车参考：什么是世界模型的多元自回归生成结构？

任少卿：实际上，这里的三个概念与目前大家正在研发的语言模型和机器人框架非常相似。

以下是重写的文本：

文本中包含了三个关键词，从右向左依次为“生成”、“自回归”和“多元”。首先，关于“生成”，这种方式具有诸多优点，例如无需手动标注数据，并且提高了学习效率。因此，语言模型早已采用生成方法。对于机器人而言，由于其数据量较少，生成方法同样适用；而对于自动驾驶技术，向生成方向发展也是合理的。

其次，“自回归”能够有效处理长时间序列问题，这也是语言模型处理长序列联系（long contacts）的方式。同样地，自动驾驶和机器人技术在应对长时间序列问题时，也需要采用这种方法。

那么，“多元”又是指什么呢？它涉及的是多变量输入与输出（即多模态输入与输出），目的是解决多数据源的问题。未来，如果自动驾驶技术希望利用互联网数据，或者互联网想要整合更多领域的数据，都需要采用类似的方法。

我们希望通过这些框架来实现跨领域的融合。

智能车参考：在当前NAD（蔚来智能驾驶）的迭代过程中，车主反馈是否是一个重要的机制？

任少卿：当一个模型部署到车辆上后，如果在一个特定时刻模型未能及时减速，而车主突然紧急刹车，这就表明存在问题。此时需要分析问题所在，并考虑是否需要重新训练模型。

智能车参考：目前各公司在城区NOA（导航辅助驾驶）方面都有所尝试，但最终用户体验有所不同，您认为这主要由哪些因素决定？

任少卿：我认为主要有以下四个因素：

模型本身；
数据量及其质量；
优化手段——即如何在模型出现问题时通过优化方法进行调整；
功能的数量——即提供的功能越多，用户体验可能越好，但这与前三个因素并不完全相关。

因此，模型是我们讨论的核心之一。不同公司在这方面存在差异，具体差异点也不尽相同。从数据角度来看，数据量的大小以及更新频率也会影响结果。在这方面，汽车制造商通常具有优势，因为它们能够更好地管理数据的变化。蔚来在这方面做得非常好，我认为我们的数据闭环可能是全球最佳之一。

第三个方面实际上是指，模型输出的结果可能会存在问题。那么，处理这些问题的方式会让效果变得更好还是更差呢？效果好的标准有两个：首先，不要误判结果；其次，在模型表现不佳时，输出结果应更加平滑，避免出现前后不一致的情况。例如，系统不应在前半段表现良好而在后半段突然转向，尽管这种情况下车辆可能没有撞到障碍物，但用户体验会很差。

第四个方面则是基于上述问题提出的新功能。从功能和用户体验的角度来看，如何才能做得更好？这包括用户的监控与交互，以及未来点到点的L3级自动驾驶应该如何实现。总的来说，技术能否达到一定的水平至关重要。一方面，模型数据的主要目的是提高效率；另一方面，虽然可以提升上限，但不能保证下限不会下降。因此，后续的工作需要确保下限能够提升甚至超过原有的水平，同时不降低效率。

以智能汽车为例，您现在还会乘坐其他车辆吗？您主要关注哪些方面？任少卿：我认为可以从短期和长期两个角度来看。从蔚来的价值体系出发，我一直强调的是解放驾驶者的精力并减少事故。具体来说，就是要让用户用得更舒心，并且更安全。从这两个角度来看，过去十年自动驾驶的发展主要体现在功能的不断升级。从最初的自适应巡航控制（ACC）到车道保持辅助（LCC），再到高速公路领航，现在已经发展到了城市领航阶段。前三个阶段相当于完成了从1到N的过程，已经非常成熟。而城市NOA（Navigation on Autonomous Highway）则从去年开始进入了从0到1的阶段，并将在接下来的一年内逐渐完善。

从实际解放精力的角度来看，未来肯定会出现新的从0到1的创新。这并不意味着我们必须在完成从前的1到n之后才能进行新的0到1的尝试。例如，在城市区域，当我们刚开始时，高速公路自动驾驶技术尚未完全成熟，因此我们还需要关注下一个节点的发展。

目前，我们一方面在城市中覆盖更多的应用场景，比如点对点的自动驾驶；另一方面也在推进L3级别的自动驾驶技术，以进一步解放驾驶员的精力。通过实现点对点的自动驾驶，我们可以覆盖更广泛的区域和更多的用户时间。

而L3级自动驾驶或所谓的“脱手脱眼”功能，则可以在现有的应用范围内进一步提高解放精力的比例。

从减少交通事故的角度来看，主动安全技术一直在进步，并且覆盖的场景越来越多。然而，我们认为这还不够。

我们希望将主动安全技术像撒芝麻一样覆盖整个真实的交通环境。最终目标是真正减少交通事故的发生。

但就个体而言，这一目标存在很大的不确定性。因为今天的擦碰可能明天就不会发生，这其中包含了一些偶然因素。然而，从整体角度来看，我们希望所有车主的车辆每年发生的事故数量能够实质上减少10%-20%。

对于个人用户来说，这种变化可能不那么明显，但从整体来看，进展将非常明显。

事实上，我们已经发现，在高速公路上使用辅助驾驶系统的安全性是不使用辅助驾驶系统的六倍以上。然而，我们的最终目标是在所有情况下、任何状态下减少整体的交通事故数量。由于目前辅助驾驶的应用比例仍然较低，大部分情况下仍然是人工驾驶，因此我们需要减少人工驾驶状态下的事故。通过提醒和自动刹车等功能，可以真正降低整体事故率。

这就是为什么我们首先专注于端到端的自动紧急制动（AEB）系统的原因。

重写后的文本：

因为我们发现，在所有交通事故中，大约有30%的情况是由于车辆在行驶过程中遇到突发状况，特别是在国内的交叉路口，电瓶车和行人会从不同的方向出现。而现有的自动紧急制动（AEB）系统主要是在两车垂直接近时能够有效刹车，一旦角度有所偏移，其成功率就会大幅下降。

为了解决这一问题，我们采用端到端的方法来改进这些功能。我们希望通过这种方式首先降低此类事故的发生率，并在未来推出更为强大的通用障碍物检测的主动安全功能。

智能车参考：这是否意味着整个系统的底层技术能力在不断提升？

任少卿：目标并不相同。

之前大多数厂商和供应商所做的主动安全系统的主要目标是获得五星级评价，比如在E-NCAP或C-NCAP测试中获得四星或五星的成绩。这是他们的主要目标。

最近一些新的评测机构也提出了一些新的评测标准，大家都希望能获得更高的评分。

然而，我们的目标不仅仅于此，我们更希望真正减少事故数量。

在NIO IN大会上，我们公布了统计数据，如果仅依靠现有的标准场景下的AEB功能，在实际场景中可能只能解决10%的问题。

实际上，即使AEB系统触发了，也无法保证100%的停车效果。

仅仅满足法规要求的AEB功能最多也只能解决10%的场景。如果再加上响应时间和刹车距离等因素，这个比例可能会更低。那么剩下的95%以上的场景该如何解决呢？

智能车参考：L2+系统能否通过端到端的方式，利用更多的数据、算力和传感器向L3和L4级别跃进？

任少卿：我认为这个问题需要分两个方面来看。L4级别的自动驾驶是指完全不需要人工干预的自动驾驶，比如Robotaxi，可以让车辆自行载客或送货。虽然技术上有可能在未来的某个时间实现，但从社会意义上来说，这件事的实际意义并不是很大。

毕竟，在交通运营中，有人参与提供服务并从中获利，这种模式已经很好了。

如果私家车都去做这件事，那么如何平衡其中的关系呢？如果所有私家车没事就上街跑，我觉得这条路就没法走了。这在我看来是一件非常奇怪的事情。

智能车参考：你在质疑这一基础逻辑或其社会价值吗？

任少卿：我是有疑问的。

举个例子，现在别说所有私家车，即使只有一半私家车上路，交通也会陷入瘫痪。

智能车参考：那么未来如果Robotaxi可以随时叫到，大家都不买车了，这有可能吗？

任少卿：不可能。

几年前我就想明白了这个问题。

在我买车之前，我也曾这样认为。那时候我每天打车，但通过打车软件，费用很容易计算。到了年底一算，发现一年的花费其实比养车便宜得多，所以我当时觉得没有必要买车。

但是当我真正拥有了自己的车之后，感觉完全不同。我认为网约车只能作为一种比公交和地铁更灵活的出行方式。

然而，拥有私家车却能大大扩展你的活动范围。网约车并不能解决这个问题。有了自己的车之后，周末出游的空间范围会更广。

智能车参考：从技术角度来看，一辆车有一个虚拟司机，可以在任何时间、任何场景下自动驾驶，这已经实现了吗？

任少卿：这种定义被称为L5。

目前没人再提L5了，因为在某些限定场景下的L3，只是有一个虚拟司机——其实还不算是真正的司机，因为系统可能会要求你立即接管。

而L4则意味着在一些特定场景中，系统可以在固定路线内自动驾驶。

你所说的实际上是需要一个全能的私人司机，能够应对任何场景，这才是L5。现在大家几乎都不提它，因为它距离我们还很遥远。

智能车参考：你觉得“比较遥远”的原因是什么？

任少卿：我觉得各种场景仍然非常复杂。

L5更接近于通用人工智能，而且我认为还需要解决各种复杂场景中的极端情况，这需要随着时间和技术进步逐步实现。

从价值角度来看，我认为实现L5不仅仅是一个技术问题。

因为一旦有了L5，我认为整个城市都可能因此发生改变。

我来举个例子。假设真的有 L5 级别的自动驾驶汽车，那我为什么还要住在城市里呢？我希望下班后可以直接上车，在车上自由活动，比如洗澡、开会、睡觉或吃饭。当我想要下车时，车已经停在一个风景优美的地方。例如，当我晚上工作结束后想散步时，车已经把我带到了山中的湖边。

那么，我为什么还要住在市区呢？

如果 L5 自动驾驶技术实现，整个社会都将发生巨变，这不仅仅是一项技术革新。

智能车参考：L5 级自动驾驶似乎是最终目标，但为什么业内很多人并不把它当作一个具体目标？

任少卿：我认为并不是不能把它当作目标，只是大家都觉得这个目标还很遥远。

从长远来看，我相信总有一天会实现。但从目前的商业和技术角度来看，我们并不会将所有精力都放在这一目标上，而不做其他事情。

从商业角度看，L2、L3 和 L4 都有各自的商业模式。所以在现阶段，大家会选择先实现这些较为实际的目标。

智能车参考：有人认为自动驾驶技术分为有人驾驶和无人驾驶两条路线，并且这两条路线会逐渐分离。您认同这种观点吗？

任少卿：我不认同。我认为这两条路线并没有真正分开。目前进行 L5 自动驾驶的研究，仍然是基于相同的逻辑。

智能车参考：也就是说，有人驾驶的智能辅助驾驶系统本质上是为了辅助驾驶员，因此最终需要车主作为最后一道防线。而无人驾驶系统则从设计之初就要完全排除人为因素，确保在任何情况下都不需要人工接管。

任少卿：从宏观上看，可以这么说。但如果具体分析，两者之间的差异还需要细化。我们需要从微观层面了解究竟有哪些不同之处。

那主要从现在这个技术，我觉得不一样的东西没有这么多。或者又不是说主要的部分是不一样的，主要的部分反而是相对比较像，这个是问题。智能车参考：所以你觉得这些要素的构成，没有长出两个不同的东西。

任少卿：它当然有不同，但是你要看它的比例，它的比例上这个绝大多数是比较类似的东西。

智能车参考：有激光雷达的融合感知，和纯视觉路线，你是怎么看的？

任少卿：本质上智能驾驶是一个冗余的系统，这套系统设计上，你愿意为冗余花多少代价。

智能车参考：用不用激光雷达，你觉得是技术问题还是还是成本问题？

任少卿：我觉得就是从成本和落地，如果今天激光雷达一个50万美金，那可能Robotaxi也不会上。如果今天激光雷达，还是一个1万美金，那量产车也不会上，那就是因为它今天便宜了，那量产车也上了。

智能车参考：多一个传感器的信息，会不会加大处理数据的难度？

任少卿：比如说我们拿医疗举例子，那为啥不拿一个摄像头去盯人看CT？为啥非得搞个 CT 出来。

同样的逻辑，本质上就是说产出和你的投入能不能算得过来。

其实某种程度上，如果我们估计激光雷达的性能不变的话，投入就是越来越低。

特斯拉决定现在这套传感器的时候，应该已经在 10 年到 15 年之前，那时候不可能(用激光雷达)。如果我换到马斯克的位置上，我都已经产了 100 万、 200 万辆车，现在上个激光雷达，我前面的车怎么办。

智能车参考：所以你觉得，从商业的那个维度上，马斯克必须要一条路走到底？

任少卿：他没有办法，他怎么选择呢？比如说即使他今天觉得激光雷达好，同时现在激光雷达便宜了，原来可能觉得原来激光雷达很贵，那我不上。

那现在便宜了，如果说激光雷达就是 200 块钱，他依然会面临问题，他上还是不上，就虽然他从 ROI的角度来说他已经完全能算得过来了，但是问题是说他上了之后，他前面的车怎么办，以及整体的用户口碑怎么办。

智能车参考：如果一开始就已经确定了使用激光雷达作为冗余方案，而现在又要移除激光雷达，转而采用视觉方案，从技术角度来看，这二者有何不同？

任少卿：技术上其实是完全一样的。现在的许多模型已经实现了集成化。以前的数据训练过程中会同时输入摄像头和激光雷达的数据，最后得出结果。现在只需去掉激光雷达的部分，修改一下代码即可，就这么简单。

智能车参考：那么，是否使用激光雷达现在主要是一个消费者认知的问题？

任少卿：其实主要是成本问题。正如斌哥所说的，我们越来越认同这一点。就像汽车的安全气囊一样，有些车装10个，有些车装18个，你会选择装多少个呢？显然，在更昂贵的车上可以多装一些，而在经济型车辆上装太多并不现实。

这类似于车辆抗扭刚度和防撞梁厚度的选择，大家都明白安全性的重要性，但关键在于如何在成本和效益之间找到平衡。十年前，奔驰S级车可能配备了激光雷达，但由于成本高昂（每个激光雷达可能高达十几万元），这并不是普通家用车的选择。现在，随着成本的降低，越来越多的车型开始配备激光雷达，但仍未低至3万元车也能负担得起的程度。因此，有的车有激光雷达，有的车则没有。

智能车参考：如果撇开成本因素，只谈技术体验，你认为使用激光雷达和纯视觉方案之间的差距现在有多大？

任少卿：这个问题很难具体量化。比如，30万元车的座椅与20万元车的座椅相比，差距大还是小？这个问题难以回答。每个人的需求和偏好不同，有些人追求更好的体验，愿意为此支付更高的价格；而有些人则更注重性价比或较低的价格。

智能车参考：也就是说，这是个人选择和厂商策略的问题，因为选择了某一种方案，所以才相信它的优势？

任少卿：确实如此，选择的背后既有个人需求的因素，也有厂商基于市场定位和成本考量做出的选择。

任少卿：是的，因为这种情况客观存在。例如，十几万元的汽车在市场上目前还没有配备激光雷达的，对吧？

而五十万元以上的新车可能全都配备了激光雷达，这就是现实情况，对吧？

至于说这是好是坏，我认为讨论这些并没有意义。

智能车参考：如果只依赖视觉信号，会不会让结果更加流畅？

任少卿：只能说这种系统更简单。当然，如果你的东西少了，自然就更简单了。

就像造车一样，一辆车上装了二十个麦克风和装两个麦克风相比，哪个系统更简单？显然是装两个麦克风的系统更简单，这不是显而易见的吗？

如果要安装二十个麦克风，并且还要充分发挥它们的性能，那肯定会更麻烦。比如蔚来的车上配备了7.1.4沉浸声音响系统，刚开始硬件装好了，但没有音源，还得再去弄音源，这就花费了很多时间。

这样一来当然更复杂了。

如果不装这个设备，那就可以随意选择任何播放设备了。

其实道理是一样的，如果车上既有激光雷达又有摄像头，这两个系统必然不会完全同步，因此你需要更复杂的软件来解决这个问题。

人类也是如此。前几天我看了一本关于人脑的书，提到我们的耳朵和眼睛之间的延迟是不一样的，大脑也需要处理这个问题——耳朵接收信息更快，眼睛接收信息更慢。但我们通常感觉不到这一点，因为大脑进行了处理。

但在某些特定情况下，这种差异会显现出来。例如，在短跑比赛发令时，通常使用发令枪而不是光信号。虽然光速比声速快，但为什么不用光信号呢？这是因为视觉信号传输到大脑中的速度较慢。

智能车参考：所以您不会遇到这样的质疑或挑战：

由于你们没有采用纯视觉方案，所以技术不如那些纯视觉方案优秀？

任少卿：乐道选择纯视觉方案，并不是因为技术原因，而是出于产品定义的考虑。我们需要让用户以合理的价格获得更高性价比的产品。这也是我们选择纯视觉方案的原因之一，因为我们希望降低成本，使产品的价格更加亲民。因此，我们在这一方面致力于降低成本。对话任少卿：世界模型是自动驾驶和机器人的

智能车参考：是否有算力成本下降的因素？即芯片的算力成本下降速度比激光雷达更快，因此可以使用更大的算力来支持视觉方案。

任少卿：这是一个权衡的过程。

例如，如果你想在某个方案上节省3000元，你是选择削减激光雷达、其他传感器，还是芯片呢？

这需要一个平衡。例如，在乐道的方案中，如果我们添加了激光雷达，就需要减小芯片的尺寸。但从系统的评估来看，我们决定保持单一Orin芯片，去掉激光雷达，并增加我们自己定制的毫米波雷达，这种雷达比传统毫米波雷达略好，但实际上，前两年市面上普通的毫米波雷达更便宜。我们通过前融合方式提高了性能，最终实现了在这样的BOM成本下最佳的体验。

智能车参考：假设你的朋友打算买车，并且非常重视智能驾驶功能。一辆车配备了激光雷达，如蔚来；另一辆则没有配备激光雷达，如乐道。你会给他什么建议？

任少卿：这取决于你愿意花多少钱，很简单，如果你预算充足就买蔚来。

我认为很难给消费者提供具体建议，因为每个人的预算都基于自身的实际情况。

对于消费者来说，多花五万元对于一辆20万元的车来说是一笔不小的开支，因此我认为大家应根据自己的预算来做决定。

我们要做的就是在相同的价格下，提升用户体验的性价比。比如乐道L60这款车，售价约为20万元，不仅空间宽敞，支持换电，还能够实现城区内的自动驾驶NOA功能。这样一来，其功能与价格相比，性价比明显更高。

智能车参考：乐道和蔚来是否会因为价格差异而降低智能驾驶的体验？

任少卿：对于智能驾驶的能力，我们当然希望每个平台上都能在其硬件基础上做到最好。但不同平台之间确实存在硬件上的差距，这也是需要客观承认的事实。有些平台投入较多，有些则较少。

智能车参考：您认为智能驾驶领域会有像ChatGPT或iPhone那样的关键时刻吗？

任少卿：我认为过去已经有很多重要的时间节点了。比如两三年前，谁会想到中国的城区NOA能这么快普及呢？再往前五年，谁又能预料到现在的高速NOA技术已经如此成熟？

因此，我认为有一些里程碑式的时刻确实存在。比如第一次开通高速NOA或城区NOA，这些时刻在回过头来看时显得非常重要。也许将来某一天L3自动驾驶真正量产时，又是一个新的里程碑。甚至可以说，回顾十年后，百度Robotaxi的广泛应用，现在这个时间点也是一个重要的节点。

智能车参考：站在未来的角度看，我们现在很难定义一个具体的时刻？

任少卿：是的，就像当年iPhone 4发布时，谁会想到iPhone从那时起逐渐失去了革命性的变化呢？我当时购买iPhone 4时，并没有意识到这一点。

智能车参考：那么是否意味着L3可能是自动驾驶领域的iPhone 4时刻？

任少卿：这还不得而知。

我认为只能说，如果自动驾驶技术的发展趋势真的变缓了，那就是如此。但如果它加速发展，或许会出现类似于 iPhone 4 那样的突破性时刻。

当你处在 iPhone 3 的时代时，你怎么知道未来会不会出现 iPhone 4 呢？

或者在另一个平行宇宙里，iPhone 3 已经达到了巅峰，后续的发展反而变得缓慢。

因为这并不是取决于你做得好不好，而是由后来的人来评判。也就是说，后来者是否比你更优秀？

如果后来的人都不如你，那你就是最强的。但你无法预测这一点，因为这是后人的事。

智能车参考：我们为什么要坚持做到L3？

任少卿：其实没什么特别的原因。我认为对于辅助驾驶系统，我们需要提供更强的功能，以解放用户。

用户价值很清楚，比如说女性用户，她们能否在车上化妆？男性用户，他们能否在车上玩游戏？就这么简单，我们要如何满足用户的需求呢？

智能车参考：那么L3相对来说，是你们内部确定的一个实现目标吗？

任少卿：肯定需要，但名称并不重要。我只是说L3并不是我们内部常用的术语。

我们内部不会用这些术语来定义，而是关注用户能否在车上打电话、直播或玩游戏等。接下来的目标是让用户能在车上睡觉。

但我们目前并不打算实现让用户在车上睡觉的功能，因为觉得这还太遥远。

因此现阶段考虑的是让用户能在车上吃饭或玩游戏。

智能车参考：每个任务都有具体的场景定义。

任少卿：没错，因为你必须明确地了解你为用户创造了什么价值。对于面向消费者的公司而言，一定要给用户提供具体的价值。

否则如果你只是告诉用户功能有多好，却说不出它具体能做什么，那是没有意义的。

智能车参考：你认为蔚来绝对属于智能驾驶的第一梯队，你是如何判断这个梯队的？

任少卿：我认为每个人对“第一梯队”的定义不同，我也不清楚具体含义。但根据我的理解，在当前阶段我们需要做到的是让车辆能够在城市中行驶，因为这是从0到1的过程，对吗？

实际上，一旦完成了0到1的阶段，城区驾驶就会进入优化阶段。各家公司在优化方面可能会有所不同，有的地方优化得多一些，有的地方优化得少一些。我觉得这个阶段相对胶着，并不是一个非常明确的阶段。

现在大家关注较多的是端到端模型化的问题，但我认为这更多是底层技术的问题。而在更上层的应用层面，我们也能够很快进行适配。

关于L3和L4自动驾驶，虽然它们还没有正式应用在车辆上，但我们已经被选为L3的第一批试点单位。

至于L4级别，我们并不称其为L4，但从用户体验角度来看，它可以实现自动换电功能，即可以让驾驶员下车。尽管从技术上来说这不是真正的L4，但从减少驾驶员负担和降低事故发生率的角度来看，我们的265版本确实是一个重要的更新。

我们的最终目标是减少交通事故。目前265版本已发布两周，数据显示其事故报告数量明显少于260版本。我认为这表明我们在正确的道路上前进，而不是仅仅通过发布短视频来展示自己的实力。

因为每个公司都可以发布短视频，但这更多是一种营销手段。我希望从技术角度来看，我们能够真正减少交通事故，这是一个可以被证实的事实。

正如斌哥所说，中国每年因交通事故死亡的人数数以万计，这是我们主动安全系统需要解决的问题。我们也在与相关部门探讨其他方法来进一步减少交通事故。

总之，这些努力最终都是为了提升用户体验并回归产品价值。

我觉得在这些方面，我们实际上都是在某种程度上基于现有的基础上进行改进，并且在长远规划上，我们的思考可能更为全面，会逐步把这些改进呈现给大家。

智能车参考：那么，城区内的NOA（导航辅助驾驶）能否开启，是否可以作为一个衡量技术能力的重要标准？

任少卿：这只是其中一个标准，并不能说是核心标准，仅仅是众多标准中的一个。

此外，正如之前所说，模型的能力以及新功能所带来的价值，可能会更具创新性。早期的功能更多是在已有基础上的扩展，而新功能则更侧重于如何创造价值。

因此，从这三个方面来看，一方面是对过去的继承和发展；对于领先者而言，这是对过去成果的延续；对于模型方面，则是近期的重点；而对于未来的新功能，则是着眼于中长期的发展。

智能车参考：如果将用户的个性化驾驶习惯和体验融入其中，是否能更好地提升智能驾驶的体验？

任少卿：的确，这就是之前提到的第四点——功能的优化。如何做得更好？我们需要进一步提升效率。例如，在交互设计上虽然有所改进，但仍存在不足。就像我们265版本中为驾驶员侧让出空间的功能，不同用户的反馈差异很大，因此后续版本可能需要提供更多个性化的选择。

有些用户认为让出主驾位置虽然自己下车的空间变小了，但可以接受；而有些用户则认为这不太合适。

智能车参考：因此，智能驾驶真正实现个性化、与AI助手对齐，仍然有一定的差距。

任少卿：没错，这也是所有从业者面临的挑战之一。首先，机器需要能够解决问题，其次，要符合人们的期望，最后，要达到“千人千面”的个性化水平。目前，这仍然是一个较高的要求，尚未完全实现。

智能车参考：现在很多机器人创业公司在尝试连接虚拟世界与物理世界，这与跨领域的融合有何不同？

任少卿：这是一个不同的工程问题。

我说的打通不同领域，指的是将不同的应用相互融合。例如，将自动驾驶、机器人和大型语言模型结合在一起，必须使用同一套框架来运作。这是因为存在一个核心问题：为什么以前机器人发展不顺利，以及目前还存在哪些问题？

归根结底，大家很容易理解的是，自动驾驶实际上是一种特殊的机器人。从一个角度来看，自动驾驶是所有机器人应用中最重要的一个。什么意思呢？也就是说，机器人的应用场景非常复杂，而自动驾驶的价值最高。人们发现，无论是过去还是现在，自动驾驶的研发成本都非常高。

如果用与当前自动驾驶相同的技术栈来做其他机器人应用，没有哪个机器人应用能够承担得起这种投入。这就是以前无法实现的原因——投入太大。

以自动驾驶为例，由于其初期的商业前景广阔，比如一家自动驾驶公司一年可能需要花费十亿元人民币进行研发，而一家机器人公司能否做到这一点呢？显然不能。

但我们认为，从长远来看，自动驾驶属于泛机器人领域的一部分，因此是否可以用同一套框架，通过更高的共享度和更低的成本，来实现所有的机器人或泛机器人功能呢？我们认为这是可以实现的。

关键在于找到合适的技术方法。我们相信，前面提到的世界模型，我们的框架也适用于机器人。

智能车参考：这是否意味着蔚来也可以做机器人？

任少卿：我认为从技术的角度来看，这件事一定可以通过这种方法实现。

否则，机器人该怎么办呢？

有两种选择：一种是放弃机器人，另一种是探索出一套统一的框架。如果机器人能够探索出统一的框架，那么这套框架同样可以应用于自动驾驶，因为它们本质上很相似。从这个角度来看，这些方法肯定都需要大量数据支持。

在自动驾驶领域，构建这样一个全面的认知框架的可能性更大，因为自动驾驶的数据量更大。

当机器人仍然认为需要分为三层时，我们还有很多内容没有详细说明。我们认为机器人实际上具有三层能力：第一层是概念认知，第二层是时空认知，第三层是运动或交互能力。第一层概念认知实际上是指模型解读。第二层时空认知正如我们之前所讨论的那样。至于第三层运动能力，则涉及如何控制轮子、腿、手，或者如何使用工具，比如拿起一把小刀并使用它。尽管这三个层面可以分开讨论，但它们实际上是相互融合的。总体而言，第二层时空认知能力是非常通用的。

智能车参考：如何看待近年来整个产业的变化？

任少卿：从技术角度来看，我认为在自动驾驶领域，前几年并没有发生特别大的变化，但在最近的半年到一年里，变化非常显著。值得注意的是，许多变化并不是源自自动驾驶领域本身，而是来自我们之前提到的其他领域的发展。

智能车参考：最终是否还是希望实现一个通用模型，打造出类似人类的智能体？

任少卿：确实如此。现在的问题是如何真正实现这一目标。从事机器人开发的公司也很有趣，各种技术之间的互动越来越频繁。在我看来，智能驾驶的研发不能仅仅局限于智能驾驶本身。

对话任少卿：世界模型是自动驾驶和机器人的