90后AI天才打造卡车,凭借端到端技术跻身自动驾驶行业第一梯队。
编辑日期:2024年10月17日
“自动驾驶实现的最大障碍,其实是车辆本身。”
记者:李根、一凡
自动驾驶并不是黄泽铧再次创业的主要目标。
作为全球无人驾驶汽车领域的先驱企业图森未来的联合创始人,黄泽铧亲身经历了从零开始,通过决策型AI技术推动自动驾驶的发展,最终使图森未来成为全球自动驾驶行业的领军企业。作为一名毕业于计算机科学顶尖学府卡内基梅隆大学的优秀毕业生,他在再次创业时选择的并非软件开发,这令许多人感到意外。
确实,黄泽铧创立的零一汽车,专注于新能源重型卡车领域,初期更是聚焦于短途运输市场。然而,这一策略似乎只是一个“障眼法”。在今年的国际顶级人工智能会议CVPR举办的国际自动驾驶挑战赛中,成立仅两年的零一汽车低调参赛,却取得了仅次于行业巨头英伟达的第二名佳绩,尤其在前沿的端到端技术赛道上表现突出。
不鸣则已,一鸣惊人。零一汽车的模型能力首次亮相便跻身世界顶尖行列。
加上在汽车制造上的快速量产能力和智能重卡生态系统建设上的成效……虽然黄泽铧最初并未将自动驾驶作为首要目标,但他似乎正在以一种更为宏观的方式实现自动驾驶技术的最终应用。
黄泽铧自己也承认,零一汽车的未来蓝图清晰可见——
事实上,自动驾驶始终是90后AI专家黄泽铧造车计划中的关键组成部分。对于在全球顶尖赛事中取得的成绩,他认为这既反映了模型的强大能力,也是时代赋予的机遇——恰逢大模型技术革新,端到端技术重新定义了自动驾驶的标准。
全球第二的成绩超出了预期。
黄泽铧表示,此次参赛实际上只是一个简单的尝试。
但在2022年底,零一汽车就已经开始投入端到端技术的研发,因此在今年的CVPR挑战赛中,他们基本上是将已经相对成熟的技术应用于比赛,并且仅依靠视觉信号就取得了非常出色的成绩,这令整个团队倍感鼓舞。
黄泽铧透露,零一汽车在端到端技术的研发上,团队规模并不大,但效果却非常显著,这充分展示了团队在基础模型和系统研发方面的能力。
这也体现了技术范式变革的力量。
他举例说,OpenAI的GPT-4的语音对话能力轻松超过了Siri,而OpenAI可能只投入了几十人的团队,远少于Siri背后可能上千名工程师的研发力量。
因此,在技术范式变革时期,合适的人才和有效的模型远比团队人数和数据参数规模更为重要。
当然,更早地洞察到生成式AI带来的技术变革,并更早地拥抱端到端技术,也在零一汽车的CVPR成绩中起到了“天时”的作用。
黄泽铧有着丰富的软件背景,他在卡内基梅隆大学(CMU)学习机器人专业,这里是全球自动驾驶领域的顶尖学府。毕业后,他直接加入了图森未来,开始了创业之旅,完整经历了自动驾驶技术从实验室到实际应用、从单辆车到整个车队的全过程。
因此,当ChatGPT横空出世时,他迅速意识到了这对整个AI和自动驾驶技术范式的意义,这也是零一汽车低调启动自动驾驶研发的契机。
幸运的是,黄泽铧不仅拥有丰富的自动驾驶经验,还赶上了技术变革的浪潮。他可以采用端到端的方式重新开始,没有历史包袱,无需转型,可以快速迭代,稳步前进。
黄泽铧透露,零一汽车从一开始就瞄准了自动驾驶领域的一个关键问题:车辆本身的不足。因此,公司明确了专注于制造高质量的车辆,而不是开发自动驾驶的高级系统,以避免有限资源的浪费。然而,在ChatGPT出现后,黄泽铧意识到自动驾驶技术发生了根本性的变革,可以通过新的方法将自动驾驶能力提升十倍甚至百倍。经过一个月的深思熟虑,公司决定打破初衷,启动自动驾驶的研发项目,采用完全端到端的方式进行推进,这既是起点也是终点。
端到端自动驾驶技术的火热讨论始于2023年的CVPR最佳论文。但在黄泽铧看来,端到端并不是自动驾驶技术发展的原因,而是其结果。早在20世纪90年代,就已经有人提出了类似的概念,2016年英伟达也发表了一篇具有重要影响的论文。这些研究的核心思想很简单:将摄像头作为输入,然后将车辆的行驶轨迹作为一个映射。
然而,在当时的技术条件下,实现端到端的方法很容易导致过拟合或陷入局部最小值。那时的AI系统对世界和数据的理解能力非常有限,虽然小规模的演示可以成功,但大规模应用时往往效果不佳。因此,黄泽铧认为,现在是端到端自动驾驶的最佳时机,因为大语言模型赋予了AI常识系统,使其具备了理解世界的能力。
例如,看到红灯就会停车,识别到水坑会知道如何绕行。AI不仅能够理解人类世界,还能进行相关的推理。这种质的飞跃,也为世界模型的建立奠定了基础。黄泽铧甚至认为,世界模型已经初步建立起来。借助大语言模型和大视觉模型,整个世界可以被投射到自动驾驶系统中,为端到端技术的落地提供了坚实的基础。
90后AI天才打造卡车,凭借端到端技术跻身行业前列
大道至简,端到端技术摆脱了过去人为的模块化定义及其相应的信息损失,无需再编写具体而复杂的规则,自动驾驶的大规模落地瓶颈也随之解决。
“我们不再需要编写规则告诉AI系统遇到红灯要停下来,AI现在具备了常识理解能力,只需一张图片,它就能知道需要停车。”
过去的复杂模型被大大简化,这意味着工程上的巨大变革。
黄泽铧将这一变化比喻为“桌子被掀翻了”。
人才与组织管理层面
AI人才变得更加稀缺,特别是那些擅长模型训练和数据中台系统的人才。从长远来看,端到端技术的本质在于简化自动驾驶,这也将简化之前许多堆栈中的工程师角色,无论是定位、地图,还是预测规划。自动驾驶的研发组织将面临一场重组革命。此外,人力密集的标注产业也会因此发生重大变化,端到端技术将使更多驾驶数据的标注实现自动化。那些懂得模型或能够有效利用开源基础模型的架构师,其价值将进一步凸显。
自动驾驶上层系统的变革
已经显而易见的是,计算体系正从CPU向GPU转移,模型也从多个小模型向单一大模型转移。传感器方案也在探索中,可能会因为端到端技术迎来统一。
解决长尾场景(Corner Case)
端到端技术在处理长尾场景方面表现出色,这将大大加速自动驾驶的普及进程。量产乘用车的脱脚、脱手、脱眼功能模式将更快推进,同时行车和泊车也将真正打通,不再需要两个独立的系统。
业内常说的“无图也能开、全国都能开、有路就能开”,正是端到端技术带来的信心。这种端到端技术在场景迁移和泛化能力上的提升,将引发更深层次的变化——L4级别的自动驾驶可能不复存在。
黄泽铧认为,在端到端技术可行的情况下,未来只会存在L2和L5两个级别。L4级别原本是基于特定条件和工况下的完全自动驾驶定义的,体现了人类对规则的内置需求。然而,端到端技术消除了这些规则,可能从根本上动摇了L4级别的基础。
最终,自动驾驶的商业化将迎来真正的曙光。
在端到端技术出现之前,自动驾驶依赖于模块化系统,未能展现出软件系统应有的边际效应商业模式。由于自动驾驶涉及与现实世界的互动,过去在不同场景间的迁移成本非常高,需要大量的研发和人力资源投入,这不符合软件系统的商业模型。
但端到端技术改变了这一点,完全数据驱动的方式使得场景不再被分割,AI系统的迁移成本几乎为零,软件的边际效应得以充分发挥,自动驾驶的商业化将迎来质的飞跃。
黄泽铧认为,端到端技术颠覆了旧的体系,正在构建新的秩序。目前唯一重要且需要验证的问题是:端到端技术的下限在哪里?
本质上,端到端技术是一个深度学习系统,可以看作是一个概率模型。它实现的是从信息流到信息流的映射,确保输出结果的安全性在自动驾驶中尤为重要,比其他AI应用领域更为关键。
尽管如此,黄泽铧对此持乐观态度,他认为随着行业内外更多力量的加入,这一问题不会成为障碍。他曾参与人脸识别技术的研发,如今这项技术已经广泛应用于金融领域,难以想象几年前的情况。
AI确实面临许多复杂的问题和挑战,但驾驶本身并不算特别复杂。
黄泽铧并不认为自动驾驶的最终目标一定是完全可解释和完全透明的。虽然端到端技术确实是一个较为封闭的系统,但这并不意味着它不安全。
“我们敢坐飞机并不是因为飞机的原理完全被理解了,而是因为它已经被证明是足够安全的。”
即使没有端到端技术,黄泽铧对自动驾驶的信心也从未动摇。他选择再次创业,专注于制造卡车,是因为他认为解决卡车自动驾驶落地的最大短板就是卡车本身。
“对于自动驾驶来说,最大的问题还是缺车。”
在成功将图森无人车从零做到一之后,黄泽铧提出了这一再出发的初衷。
他说,过去十年一直在从事与卡车相关的自动驾驶研究,但最终发现制约卡车自动驾驶发展的仍然是卡车本身。与乘用车市场的蓬勃发展不同,卡车领域缺乏新能源技术的变革,许多基础技术尚未得到改进。
从最终目标来看,自动驾驶卡车难以落地的原因在于缺乏一款合适的卡车,缺乏一个可靠的卡车平台。
这种缺乏不仅是痛点,也是稀缺资源,更是黄泽铧希望实现自动驾驶落地所看到的创业机会。在他看来,自动驾驶系统可以分为两个层次:一个是上层系统,以软件为核心;另一个是底层系统,以车辆硬件为基础。
“需要将车视为自动驾驶的一部分。”
黄泽铧认为,尽管上一波自动驾驶从业者在实践中有所体会,但从更广泛的角度来看,这仍未成为大多数人的共识。
马斯克依然是行业的领军人物,在卡车领域,特斯拉已经实现了Semi卡车的量产,但Semi主要还是在新能源卡车的发展道路上,尚未迈入智能化的新阶段。因此,黄泽铧认为,既然技术发展的方向已经基本确定,即使造车难度很大,也必须坚定不移地推进,至少要在造车的方向上不断前进。
命运的齿轮,在这一刻悄然转动。
正当拥有深厚计算机软件背景的黄泽铧坚定地转向硬件,投身于造车事业时,他与另一位资深的硬件专家、卡车行业的翘楚张红松一拍即合。
张红松和黄泽铧虽然年龄不同,但两人互补性强。相比于黄泽铧这位AI领域的年轻天才,张红松则代表了造车领域的传统与深度,他在重型卡车行业有着超过30年的丰富经验,曾任北京福田戴姆勒和三一重卡的副总裁,并主导了三一重卡从项目启动到成功上市的全过程,对硬件研发、供应链管理和生产制造有着深刻的理解。
两人最初是在黄泽铧的图森公司工作时有了初步的接触,但当时交流并不深入。直到黄泽铧回国后,因缘际会之下,两人的交流逐渐增多。黄泽铧向张红松分享了自己对于自动驾驶车辆现状的看法,并请教如何克服当前的技术瓶颈。
而张红松也惊讶地发现,从车企的角度出发,他也正思考着同样的问题。
更关键的是,在这样的交流碰撞中,两人不仅发现了彼此在底层逻辑和价值观上的共鸣,还在思考方式和个性上产生了强烈的吸引力……
既然都在思考同样的问题,为什么不一起创业来解决这些问题呢?
于是,张红松和黄泽铧,一老一少,共同创立了零一汽车,正式开启了他们的造车创业之旅。
由于两人独特且丰富的经验和背景,他们在创业方向和项目发展上有着清晰的规划和详细的分工,进展也比预期更加顺利。
战略上的精准定位,使得他们仅用了不到两年的时间,花费约1.5亿元人民币,就完成了首个平台下两款车型的研发、生产和交付。
黄泽铧还透露,乘用车制造的门槛普遍认为在50-100亿元之间,但卡车制造则有所不同,因为卡车行业的供应链可重复使用程度较高,定制化开发较少,集成度也不如乘用车那样复杂,可以将最合理的资源投入到最关键的地方。他坦诚,在两年多的造车过程中,并非一切顺利,犯错和付出代价是在所难免的,但由于零一汽车在方向上有大致的正确性,团队具备持续解决问题的心态和执行力,因此至今的交付成果超出了预期。
对于零一汽车,黄泽铧有自己的一套“三级火箭”战略:
第一级,先造出优质的车辆,拿到市场入场券。然后通过销售取得领先的市场份额,完成从研发到商业化的闭环,形成企业发展的良性循环。完成这一阶段后,基本上就能获得下一阶段的竞争资格。
第二级,构建自动驾驶的基础和平台,进行整车系统的深度自主研发,并针对特定场景深入实施无人化应用。这将是一个专门为新能源设计的全新重型卡车平台,也是专为无人驾驶设计的智能整车平台。
接下来是第三级,实现自动驾驶的大规模量产和商业化应用,无人驾驶与整车智能化全面融合,达到广泛场景下的自动驾驶目标。
以马斯克的SpaceX为例,黄泽铧的三级火箭中,第一级造车旨在克服地球引力,进入太空;而第二级和第三级的自动驾驶则是为了进入火星轨道并最终登陆火星。
现在,随着量产车型的成功交付及不断增长的销售订单反馈,零一汽车的第一级火箭正逐步进入预定轨道。
当然,展望未来的同时,沿途也会结出硕果。
除了造车之外,零一汽车还将新能源和智能化的相关能力对外开放合作,通过零动智卡联盟的形式为整个卡车行业赋能。
黄泽铧此前曾提到,卡车与乘用车供应链不同,前者定制化的需求较少,而更多地依赖于共享和复用的组件。
零一汽车正好可以为这一更为传统的汽车细分市场带来新能源的共享优势,同时也能促进自动驾驶技术的复用。对于零一汽车而言,这种赋能不仅有利于他人,最终也将创造共赢的局面。由于卡车或商用车面对的细分应用场景非常多样,如果有更多的参与者能够直接利用零一汽车提供的电气化架构和自动驾驶解决方案,这将有助于创造更大的价值,并推动自动驾驶技术的普及。
当被问及联盟模式下的未来愿景时,黄泽铧表示目前还不敢过多设想,但他认为零一汽车将主要负责技术输出,而重型卡车制造商则负责生产和后续服务。
实际上,这种模式在乘用车市场已经由华为成功验证,而零动智卡联盟似乎正致力于在商用车领域打造类似于鸿蒙智行的生态系统。
这样的评价超出了黄泽铧的预期,或者说,零动智卡联盟并非他最初创业时的第一性原则的一部分。回顾他的再创业历程,黄泽铧反复强调的一点是:
卡车仍然是自动驾驶技术面临的最大挑战。
当他被要求比较图森未来和零一汽车两次创业的不同之处时,他倾向于接受一个拟人化的比喻:
图森未来的目标是成为国际奥林匹克信息学竞赛(IOI)的金牌得主,即专注于解决世界上最复杂的技术难题,即使只有单一的强项也足够强大。
然而,零一汽车面临的挑战在于必须在造车、自动驾驶、商业化、运营和品牌建设等多个方面都表现出色,不允许有任何短板,这更像是一名高考状元。
目前,零一汽车已经在“初步考试”中,在造车和自动驾驶两个核心领域中取得了优异的成绩,处于行业第一梯队。
两年的创业成果让黄泽铧感到兴奋,但更令他激动的是,他们离实现成为全球最佳运输机器人的愿景又迈进了一步。
黄泽铧说,这是一个中国卡车行业从未实现的梦想。
现在,以零一汽车之名,通过创业的方式,召集最优秀的人才,逐步实现这一目标。
端到端技术重写自动驾驶新秩序?
在国内10多个省市落地项目
告别对埃尔法的盲目崇拜
每天有1600亿帧视频用于训练
行驶一百公里,“毫无感觉”
从全球90多支顶尖AI团队中脱颖而出