“大模型”“L3”取代了往届的续航里程和激光雷达数量,成为最醒目的关键词。大众发布“全域智能体AI”路线图,小鹏自称“物理AI科技公司”,理想把“具身智能”写进了车型定位——车企们似乎在一夜之间集体“转型”成了AI公司。
2026年3月,在英伟达GTC大会上,理想发布MindVLA‑o1模型,吉利推出WAM世界行为模型。一场关于VLA(视觉‑语言‑动作模型)与世界模型的技术路线之争从幕后走向台前,业界争论的焦点不再是“要不要做AI”,而是“做什么样的AI”。
物理AI包含两层核心内涵:其一,让AI掌握重力、摩擦力、因果关系等物理世界基本常识;其二,让AI具备基于这些常识与真实世界安全、高效交互的行动能力。这意味着AI的发展重心正从虚拟智能坚定地迈向行动智能。
而汽车,正是这场变革的关键载体之一。它不仅是最复杂的移动终端,也是物理AI落地规模最大、硬件要求最高的产业场景。谁能率先造出真正理解物理世界的AI,让其在车上实现“智能变现”,谁就有望在下一个十年的行业竞争中占据主导地位。
VLA与世界模型,谁更接近线年,智驾技术路线分化为两条技术侧重路径。VLA阵营以理想、小鹏为代表,主张通过大语言模型赋予系统推理能力;世界模型阵营以华为、Momenta为代表,认为预测物理世界状态才是智能驾驶的关键。
这种分裂并非学术游戏——它直接决定了行业千亿研发资金的流向,也决定了消费者最终能得到什么样的驾驶体验。需要说明的是,这种划分并非绝对对立。理想MindVLA‑o1本身已融合隐式世界模型能力。VLA架构将视觉(Vision)、大语言模型(Language)和动作执行(Action)整合在一起。其核心理念是让AI像人一样理解驾驶场景的语义信息,再据此做出决策。
2026年北京车展前夕,小鹏推出第二代VLA Ultra智驾系统,主打“无高精地图依赖”的全场景智驾能力。该系统搭载4颗图灵芯片,总算力达3000 TOPS,已实现感知、决策、规划控制全链路端到端打通。更重要的是,小鹏将双图灵AI芯片和第二代VLA大模型下探至12万元级MONA车型,试图以价格覆盖换取数据规模的扩大。
理想则在GTC 2026上发布MindVLA‑o1模型,采用MoE Transformer、3D空间理解与闭环强化学习等技术,具备三维空间感知和预测式隐世界建模能力。理想的技术路线强调“自动驾驶只是物理AI的起点,未来这类基础模型可驱动具身智能新范式”,更注重在驾驶之外泛化至具身智能领域。
世界模型的核心思想是自动驾驶不应该只处理当前画面,而应该在云端预演未来几秒乃至几分钟内世界将如何演变,带着“预判”去开车。
华为乾崑ADS 5.0是这一路线的集大成者。其WEWA 2.0架构首次引入“多智能体博弈机制”。即在云端构建一个高度还原真实世界的数字场景,通过多智能体博弈的方式,如何挑选一款适合自己的PG电子游戏?让AI在海量极端场景中循环训练,训练效率提升10倍。更具突破性的是,该架构采用“边生成、边学习、边验证”的在线强化学习模式,训练效率再提升10倍。车端则首创“安全风险场理论”,将碰撞风险降低50%。
Momenta则是将世界模型与强化学习进行量产整合的企业。2026年北京车展上,Momenta正式首发了R7强化学习世界模型。Momenta CEO曹旭东将其技术路径拆解为三个层次:第一层,通过海量真实驾驶数据预训练,将物理规律、常识与因果关系压缩进模型;第二层,将世界模型用于自动驾驶闭环仿真,让系统推演自身行为变化时世界将如何演变;第三层,在世界模型中进行强化学习,让系统在堪比真实的虚拟环境中反复试错,自主习得极端场景的最优决策能力。
这套机制的目标是在长尾极端场景下让AI能力超越普通人类驾驶员。据Momenta方面介绍,在实际路测中,搭载R7系统的车辆已展现出自主预判前车意外掉落物品的滚动轨迹与扩散范围,提前规划避让路线,“以更从容、更贴合人类驾驶逻辑的方式处理突发路况”的能力。
轻舟智航则在2026年3月完成1亿美元D轮融资,明确将资金投向“世界模型+强化学习”的通用物理AI研发,其“乘风MAX”方案采用VLA+世界模型+强化学习统一架构,意图以“取其精华”的方式整合多条技术路线。
两大阵营的角力,已趋白热化。吉利汽车集团CTO李传海在发布WAM世界行为模型时公开质疑VLA:VLA仅匹配标准答案、缺乏对物理规律的真实认知,依赖有限驾驶数据而非海量视频,难以建模物理世界。
Momenta曹旭东则更为直接:“VLA对智驾的提升有限,‘世界模型+强化学习’才能给智驾带来十倍、百倍的提升。”
但行业的共识正在向融合演进。黑芝麻智能CEO单记章断言:“VLA加上世界模型,是高阶智能驾驶未来最有可能的技术路线,有机会超越人类的驾驶能力。”
另一条被打开的路径来自卓驭科技的“原生多模态基础模型”。卓驭科技不再做传统的“云端大模型蒸馏成车端小模型”,而是让基础模型从底层开始对物理世界通用规律进行预训练,支持视频、文本、语音、地图等多模态统一输入,实现跨垂类、如何挑选一款适合自己的PG电子游戏?跨地域的Zero Shot(零数据知识迁移)。卓驭CEO沈劭劼的目标明确:“未来存活下来的智驾公司,都将转型为移动物理AI公司”。该模型将于年内搭载于乘用车与商用重卡,并计划成为出海技术底座。
从VLA到世界模型,物理AI对算力的需求引发了产业链全面升级。百度副总裁石清华在智能电动汽车发展高层论坛(2026)上直言:“现在在卷自动驾驶,尤其在卷模型训练和推理,现在基本上已经处于算力荒的阶段了。”
他给出了一组值得关注的宏观数据:预计2028年,推理在总算力需求中的比重将达到73%;而从2022到2024年,同等性能推理成本已下降超过200倍。与此同时,全球AI大模型单周调用量已达27万亿Token,车圈的增速更为夸张,“智能座舱开始全面调大模型在上面做生成式的HMI、多模态推理”。物理AI需要多少算力?
英伟达Thor芯片的答案是:没有上限,只有终点。单颗Thor芯片算力最高达1000 TOPS以上,通过NVLink互联的双芯片方案可提供4000 TFLOPS(FP4精度)的最高算力配置,双向聚合带宽高达180GB/s,相较传统PCIe或以太网方案提升数十到数百倍。
北京车展期间,德赛西威与小马智行相继发布基于双Thor平台的智驾域控制器方案,已具备L3/L4级量产能力。小马智行面向Robotaxi的域控制器利用NVLink“高速公路”让两颗Thor芯片协同工作,完成边缘计算域的全功能覆盖。比纯粹堆算力更具产业意义的是“舱驾一体”,将智能驾驶和智能座舱的硬件整合到一颗芯片上,打破长期存在的座舱与智驾在硬件上“分家”的局面。
地平线在车展前夕发布的中国首款舱驾融合整车智能体芯片星空6P,用一颗芯片取代传统智驾与座舱两套系统,将座舱的数字AI与高阶智驾的大模型部署在同一片硅基上。
这一方案的意义远超“二合一”式的物理节省。空间占用缩小50%、单车成本降低1500至4000元,更重要的变革来自底层:统一架构让数据无需在不同芯片间长途跋涉,实现毫秒级低延迟交互。研发交付周期从18个月骤降至8个月,缩短幅度达56%。安全层面,地平线首创的“城堡”安全物理隔离架构在芯片内部划出隔离带,座舱娱乐系统的故障不会波及智驾域。目前,星空6P已被大众、奇瑞、比亚迪等车企及博世、电装等Tier 1锁定为意向伙伴。地平线创始人兼CEO余凯直言:随着“舱驾融合”等技术突破,高端智驾体验的用户拐点已至,智驾配置将在三年内成为主流标配。
其他芯片玩家也纷纷响应这一趋势。高通8775芯片提供50-72 TOPS的舱驾融合算力,而高通旗舰级8797芯片算力可达320-640TOPS,双芯片方案已搭载于零跑D19。黑芝麻智能的华山A2000家族覆盖200-1000TOPS各层级需求,其A2000X面向L3级自动驾驶和Robotaxi提供1000TOPS等效算力。
当业内所有人盯着芯片算力时,存储短板正在悄然浮现。北京车展上,大模型上车成为标配。长安、东风、北汽、比亚迪、吉利、长城等车企集体接入千问大模型,搭载豆包大模型的智能汽车已超700万辆。蔚来世界模型NWM、极氪“超级Eva”、小鹏第二代VLA、理想Mind GPT等自研模型也纷纷上车。
主流汽车的内存需求仅为16GB左右,而L4级自动驾驶车型需要超300GB内存。汽车行业存储芯片供应压力也在加剧,理想汽车供应链副总裁孟庆鹏判断,2026年汽车行业可能面临存储芯片供应满足率不足50%的危机。
物理AI的真正门槛不在算力或芯片本身,而在于数据闭环的效率。这正是中国车企将大模型全民化普及的最大优势。
何小鹏在2025年Q4财报会上宣布,2026年将把物理AI相关研发投入提升至70亿元,涵盖VLA大模型、人形机器人IRON、飞行汽车以及按L4标准前装量产的Robotaxi。更重要的里程碑事件是,“小鹏汽车”正式更名为“小鹏集团”。何小鹏本人的定义颇为直接:“上一个十年小鹏是智能电动汽车,这一个十年是全球物理AI。”80万台搭载智驾系统的量产车构成其物理AI的数据飞轮。截至2026年4月,华为乾崑智驾累计辅助驾驶里程突破100亿公里,2026年智驾研发投入将超过180亿元。巨额投入加海量数据驱动,使得华为能持续迭代云端的WEWA 2.0架构。
降本已是整车行业无法回避的核心诉求。地平线P方案的单车成本可降低1500至4000元,舱驾一体软硬件交付时间缩短56%,为10万至20万元主流市场搭载高阶智驾打开了成本突破口。
小鹏将双图灵AI芯片和第二代VLA大模型直接代入12万元级MONA车型,本质上是在规模化训练成本、复用软硬件能力方面算大账——“数据越多—迭代越快—体验越好—用户越多”的正向循环一旦启动,成本曲线将进入下降通道。
智能驾驶竞争进入以数据闭环能力、大模型训练效率和工程化落地水平为核心的综合比拼阶段,未来高阶智驾将加速向10万至20万元主流车型普及。这场“标配化战役”正在将物理AI的智能规模从高端差异化演变为核心基础能力。
物理AI的自然延伸逻辑是跨载体迁移能力。地平线团队已将其核心计算平台BPU延展至扫地机器人、四足机器人等具身领域。小鹏则已经开始在更多物理AI载体上搭建实验场景:人形机器人IRON计划2026年底量产,月产能目标上千台;飞行汽车“陆地航母”的核心动力系统也已量产下线。
卓驭科技的跨品类基础模型将乘用车、重卡、物流车等多个移动载体的智能化需求在统一模型框架下打通——不同移动体以同一套物理认知框架在世界中行驶、作业,才是物理AI最根本的内涵扩展。“一套模型驱动万物智能移动”的口号正在从愿景走向技术现实。
物理AI的概念叙事再宏大,最终都要接受真实物理世界的拷问。商汤绝影团队将其概括为“最后的500米”困境——“从算法可行到上车可信,看似咫尺之遥,却是最难跨越的关卡”。这一困境至少包含三个层面。
其一,大模型的可解释性。传统端到端方案虽突破了规则时代的拓展瓶颈,但AI的决策变成黑盒:为什么刹、为什么绕,乘客一无所知。商汤绝影团队曾直言:“端到端是智能驾驶的ChatGPT时刻,但ChatGPT时刻为什么用户还不信任?因为端到端解决了能力,但没有解决可解释性。”在安全关切超越功能性的出行场景里,这道题尚无完美答案。
其二,算力投入与商业回报的悖论。智慧化每增加一重能力,车端算力需求就呈指数级攀升。百度的石清华一语道破汽车圈的现实困境:“卖一台车成本是多少,但当车真正步入智能化之后,在上面的智驾系统每增加一层能力,算力的消耗都在攀升”,但车企很难将这份提升直接转化为消费者付费意愿。
其三,合规和数据安全。大模型上车边界的大规模数据流动、本地化计算与云端训练协同,对数据隐私和合规均构成全新压力。行业内正在探索可解释AI、可控大模型的解决方案,但远未形成共识标准。
过去,汽车价值链以制造、硬件为核心;未来,将以物理AI模型、数据、算法为核心。正如行业专家所指出的——不再拼配置,而是比底座;不再做功能,而是造智能。这一刻,车企的下半场竞赛刚刚开始。
声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。