北京时间6月11-14日,计算机视觉顶会CVPR 2025在美国田纳西州纳什维尔举行,小鹏汽车受邀参与自动驾驶研讨会CVPR WAD(Workshop on Autonomous Driving),与Waymo、英伟达、加利福尼亚大学洛杉矶分校(UCLA)、图宾根大学(University of Tuebingen)等来自工业界和学术界的自动驾驶同行共同探讨业界最新AI技术。
CVPR是AI与计算机视觉领域的顶级学术会议,与 ICCV、ECCV 并称计算机视觉三大顶级会议,每年都被自动驾驶业界和学界视为前沿技术交流的窗口。
CVPR举办的自动驾驶研讨会(CVPR WAD)历时已有八届,是全球最具权威性的自动驾驶技术会议之一。小鹏汽车是由大会邀请,到场分享自动驾驶基座模型研发进展的唯一中国车企。
AI大模型浪潮以来,自动驾驶领域发生了技术范式的切换,已经从过去人类手写规则的模型,升级为基于海量数据603138)训练出的AI模型,相关技术进展也成了这几年CVPR的大热议题。
在本届的CVPR WAD上,小鹏世界基座模我是PG电子新手,有没有简单的入门指南?型负责人刘先明博士发表了题为《通过大规模基础模型实现自动驾驶的规模化》(Scaling up Autonomous Driving via Large Foudation Models)的演讲,系统地介绍了小鹏汽车自研的业界首个超大规模自动驾驶基座模型的历程和方法,披露了其在模型预训练、强化学习、模型车端部署、AI和数据基础设施搭建方面的前沿探索,为同行带去工业领域的实践经验。
同一天,在大洋此岸的中国广州,小鹏汽车宣布推出全球首款搭载L3级算力平台的AI汽车——小鹏G7,并且在行业内首次提出了「L3级算力平台」的两大标准:
第二,搭载本地部署的「VLA+VLM模型」。小鹏汽车认为,「大算力+物理世界大模型+大数据」将共同定义未来“AI汽车”的能力上限。
今年4月,小鹏汽车已对外宣布正在研发参数规模达到720亿的云端大模型,即“小鹏世界基座模型”。
该基座模型是以大语言模型为骨干网络,使用海量优质驾驶数据训练的VLA大模型(视觉-语言的-行为大模型),具备视觉理解能力、链式推理能力(CoT)和动作生成能力。目前,小鹏汽车已经在后装算力的车端上用小尺寸的基座模型实现了控车。在没有任何规则代码托底的情况下,新的“AI大脑”展现出令人惊喜的基础驾车技能,能够丝滑地加减速、变道绕行、转弯掉头、等待红绿灯等等。
刘博士表示,小鹏汽车已经在云上训练了10亿、30亿、70亿、720亿等多个参数的模型,并且持续向模型“投喂”更大规模的训练数据。目前,小鹏世界基座模型累计“吃下”2000多万条视频片段(每条时长30秒)。
在这一过程中,研发团队清晰地看到了规模法则(Scaling Law)的显现。也就是说,模型的参数量越大、模型学习的数据越多,模型的性能越强。这是AI大模型浪潮以来,行业内首次明确验证规模法则在自动驾驶VLA模型上持续生效。
目前,业界主流的车端模型参数一般在几百万到十亿级别。在车端直接训练小模型,规模法则没有发挥空间,模型的性能上限也很难提升,更无从实现强大的链式推理等能力。
基于这一判断,小鹏汽车早在去年就确定了云端基模技术路线,也即在云端“不计成本”地训练超大规模世界基座模型,再通过蒸馏的方式生产出适配车端算力的小模型。蒸馏能够最大限度地保留云端基模的核心能力,帮助车端模型跳出车端算力的“一亩三分地”。
在规则时代,自动驾驶能否从L2辅助驾驶进化到L4自动驾驶是一个颇具争议的议题。在规则时代,自动驾驶模型其实属于“模仿学习”模型,这意味它只能处理训练数据中见过的场景。而自动驾驶核心难点在于处理更罕见的、复杂的、事关安全的长尾问题,但通常这些问题发生概率极低,因此往往没有足够的数据供模型学习。
到了AI时代,全新的解法已然出现,“强化学习”成为了提升模型思考能力、帮助模型处理长尾场景的重要手段。小鹏汽车证实了“云端基座模型+强化学习”的组合,是让模型性能突破上限的最佳方法。
值得注意的是,小鹏世界基座模型并不是静态的,它在持续学习、循环进化(Continued Online Learning)。可以 将模型的迭代过程分成内、外两个循环,内循环是指包含预训练、后训练(包括监督精调SFT和强化学习RL)和蒸馏部署的模型训练过程;外循环,是指模型在车端部署之后,持续获取新的驾驶数据和用户反馈,继续用于云端基模的训练。
自成立至今十多年,小鹏现有几十万量辅助驾驶车辆跑在全国各地,源源不断地创造着新的训练数据,包括大量的长尾场景数据,刘博士指出:“强化学习非常讲究数据采样,非常依赖来自真实世界的数据。”
在此次CVPR WAD上,刘博士所提出的“软件3.0时代,打造云端工厂,开启AI时代模型生产新范式”同样让现场参会者留下了深刻的印象。事实上,为了研发世界基座模型,小鹏汽车从去年便开始布局AI基础设施,建成了国内汽车行业首个万卡智算集群,用以支持基座模型的预训练、后训练、模型蒸馏、车端模型训练等任务。小鹏汽车将这套从云到端的生产流程称为“云端模型工厂”。
目前,这个“云端工厂”拥有10 EFLOPS的算力,集群运行效率常年保持在90%以上,全链路迭代周期可达平均5天一次。如此算力规模和运营效率,对标的是头部AI企业。
在大会现场,小鹏汽车首次展示了两个核心数据:小鹏云上基模训练过程中,处理了超过 40万小时的视频数据;流式多处理器的利用率(streaming multiprocessor utilization,即SM utilization)达到 85%。前者代表云端数据处理能力,后者所提及的“流式多处理器”是 GPU 的核心计算单元。SM利用率是评判GPU计算资源使用效率的重要指标。
此外,刘博士还从云端模型训练和车端模型部署两个层面,拆解了小鹏汽车自动驾驶团队提升世界基座模型训练效率的方法。
在模型训练层面,小鹏的研发团队在CPU、GPU等方面做了联合优化,“VLM、VLA等多模态模型不同于LLM,训练过程不只受限于计算瓶颈,还受到数据加载瓶颈、通信瓶颈的限制,大规模并行训练首先要解决这些问题。”
在车端模型部署层面,小鹏汽车有一个与众不同的优势:自研的图灵AI芯片专为AI大模型而定制,模型、编译器、芯片团队针对下一代模型开展了充分的联合研发工作,比如定制 AI 编译器以最大化执行效率,协同设计硬件友好、量化友好的模型架构,确保软硬件充分耦合,最终“榨干”车端算力。
“车端计算量的重要来源是输入的 Token (词元)数量。以配备了 7 个摄像头的 VLA 模型为例,每输入约 2 秒视频内容,会产生超过 5000 个Token。我们一方面要压缩输入中的冗余信息,降低计算延迟。另一方面还要确保输入视频的长度,以获得更丰富的上下文信息。”
刘博士称,小鹏团队创新设计了针对VLA模型的 Token 压缩方法,可在不影响上下文长度的情况下,将车端芯片的Token处理量压缩70%,比如将5000Token压缩到1500Token。”
回到小鹏汽车此次在CVPR WAD分享本身,作为唯一受邀演讲的中国车企,以技术创新为源动力的小鹏汽车将经过几十万用户验证的自动驾驶实践成果反哺学术界,以“商业-科研”的良性循环,为全球自动驾驶研究注入了宝贵的动力。