发布日期:2026-07-05 07:00 点击次数:100


车东西
作家 | Janson
裁剪 | 志豪
小米在海外谋略机视觉顶会ECCV 2026上,一次性拿下了12篇论文!
车东西7月3日音书,据小米本领泄露,在海外谋略机视觉顶会ECCV 2026上,小米AI团队和小米自动驾驶团队多篇论文被及第。

小米12篇论文入选ECCV 2026
托福的这12篇论文中,有5篇王人与自动驾驶径直关联,它们分别是CausalDrive、MindDrive、DriveVA、BeyondDrive和DriveFine。
五篇论文看似主义不同:有的谈论天下模子,有的谈论VLA决策,有的谈论在线强化学习,有的谈论安全负样本,有的谈论轨迹自修正。
但放在一齐看,它们其实王人在恢复归拢个问题:自动驾驶如何从“看见谈路”,走向“聚拢天下”?
毕竟,确实驾驶从来不仅仅识别车谈线、车辆和行东谈主。车需要聚拢前车刹车会带来什么四百四病,旁车是否会让行,行东谈主是否可能不竭横穿。同期,系统也需要知谈一个看似接近民众轨迹的算作,为什么可能在两秒后变成危急决策。
上述难题,也恰是小米这五篇 ECCV 自动驾驶关联论文试图共同恢复的问题。它们让模子不仅能感知环境,还能预见畴昔、聚拢交互、优化决策,并在风险出现前完成纠错。
值得一提的是,ECCV与CVPR、ICCV并称谋略机视觉三大顶会,据小米本领泄露,ECCV 2026共收到10473篇有用投稿,及第2883篇论文,及第率约27.5%,小米的12篇论文含金量可见一斑。
一、天下模子更新 不唯有看见路还要“想象畴昔”自动驾驶要确实走向复杂洞开谈路,弗成只依赖现时帧里的车谈线、车辆、行东谈主和红绿灯。
确实驾驶更像是一场连气儿博弈:自车向左并线,旁车会不会延缓?前车急刹,后车会如何响应?一个看似可行的轨迹,几秒后是否会把车辆带入冲突区域?
这就需要自动驾驶模子具备一种更高层的材干:天下模子。
所谓天下模子,浅近来说,即是让模子在脑海中“预演畴昔”——不仅预见接下来画面会变成什么样,还要聚拢现时算作会若何影响环境,周围交通参与者又会若何反过来影响自车决策。
小米此次ECCV 2026自动驾驶关联论文中,CausalDrive和DriveVA无意代表了天下模子主义的两个关节问题。
1、CausalDrive:从“生成畴昔视频”到“模拟交通因果”
好多自动驾驶天下模子,已往更像是一个视频生成器,给它现时画面和一些要求,它生成畴昔几秒谈路场景。
但问题是,确实交通不是一段被迫播放的视频,而是一个会对自车算作作出响应的动态系统。
比如,自车准备并线,傍边车辆可能让行,也可能加快通过;前车倏得刹车,后车会不会随着延缓,取决于距离、速率、驾驶意图等身分。
聚拢这些交通参与者之间的因果互动亦然关节。
CausalDrive架构
CausalDrive的中枢价值就在这里,论文指出,现存不少基于布局要求的驾驶天下模子依赖配景车辆畴昔轨迹,至极于提前知谈了其他交通参与者畴昔会如何走,因此并不是确实的交互式模拟。
而纯算作要求预见器又短少对复杂交互的语义规章,何况推理蔓延较高。
为了搞定这个问题,CausalDrive只使用开动前视图像、自车轨迹和宏不雅文本辅导,不输入畴昔NPC布局,从而迫使模子我方预见周围交通参与者的响应。
论文提议Context-Forced DMD(落魄文强制DMD)架构,邻接连气儿流匹配和自强异蒸馏,终昭彰12 FPS的交互式生成速率。
CausalDrive跑分
这意味着,CausalDrive把被迫的视频生成器鼓动成一个可交互的神经仿真器,模子不仅要知谈“畴昔画面长什么样”,还要聚拢“为什么会这么发生”。
这对自动驾驶的真谛很径直。确实谈路上的长尾情况很难全部靠收罗数据掩饰,如若模子能构建可控、实时、可反事实推演的交通天下,就不错用来作念闭环评测、强化学习窥察,致使东谈主机交互式仿真。
论文也展示了其在生成式闭环评测、大鸿沟强化学习后窥察以及东谈主在回路仿真中的运用后劲。
2、DriveVA:让“想象的畴昔”和“筹划的轨迹”保抓一致
如若说CausalDrive防御的是“交通天下如何因果互动”,那么DriveVA防御的是另一个关节问题:模子想象出来的畴昔,和它筹划出来的轨迹,能弗成一致?
现存不少天下模子筹划步伐,频频把畴昔视觉预见和轨迹筹辩别开处理,但这么作念的问题是,模子可能“想象出一个畴昔”,却筹划出一条并不匹配这个畴昔的道路。
也即是说,视频和算作是松耦合的。
DriveVA的步伐是,把畴昔视觉预见和车辆算作序列放进归拢个shared latent generative process(分享潜在生成经过)中长入生成。
论文基于大鸿沟预窥察视频生成模子,经受其对时空动态、物理合感性和因果交互的建模先验,并使用DiT-based decoder(基于 DiT 的解码器)同期预见畴昔视频和车辆算作序列。
这个联想搞定了自动驾驶中的一致性问题。对东谈主类司机来说,驾驶决策频频不是割裂的:咱们会一边不雅察周围车辆畅通,一边预见几秒后的交通景象,同期诊治我方的旅途。
而DriveVA让自动驾驶模子也具备这种材干,让畴昔视觉和算作在归拢套生成逻辑中完成。
DriveVA跑分
实验扬弃也比较有话题度,从跑分扬弃看,DriveVA在NAVSIM challenge上达到90.9 PDM score,并在零样本成就下展现出跨数据集、跨域泛化材干。
在nuScenes上,比较现存天下模子筹划器,DriveVA将平均L2 error和collision rate分别缩小78.9%和83.3%,在Bench2Drive/CARLA v2上则分别缩小52.5%和52.4%。
二、VLA不竭升级 生成轨迹并学会“为什么这么开”如若说天下模子搞定的是“畴昔会若何变化”,那么自动驾驶还必须恢复下一个问题:濒临这个畴昔,车应该如何作念?
已往的端到端自动驾驶,更像是在学习民众轨迹,这种式样能掩饰无数常见场景,却很难搞定两个问题:一是遭遇窥察数据除外的长尾情况,模子短少主动试错和自我改进材干;二是轨迹一朝生成出错,后续很容易舛错积累,难以实时回头修正。
这恰是MindDrive和DriveFine两篇论文切入的所在,它们王人属于VLA模子,让自动驾驶模子不仅仅“看图输出轨迹”,而是先聚拢场景、形成驾驶意图,再转动为具体行为。
1、MindDrive模子若何在确实交互中学会更好的决策
自动驾驶天然不错通过强化学习“边试边学”,但难点在于,车辆算作是连气儿轨迹空间,速率、主义、加快度、位置点组合极其复杂,径直在轨迹里试错成果很低。
MindDrive的作念法,是把试错从连气儿轨迹空间上移到谈话决策空间。
模子先判断“延缓让行”“保抓车谈”“逐渐左转避让行东谈主”等驾驶意图,再由算作民众把这些意图映射成具体轨迹。
论文中,MindDrive采纳分享视觉-谈话模子基座,并通过两套LoRA(一种大模子参数高效微调本领)适配模块形成两个民众。
MindDrive架构
一个致密场景推理和驾驶决策,另一个致密把谈话决策转成可实行轨迹;车辆实行后的轨迹奖励,则反馈到谈话推理层,用来优化下一次决策。
这一步的真谛在于,模子不再仅仅效法“民众那时如何开”,而是入手学习“这个场景下为什么应该这么开”。
强化学习也不再是在海量连气儿轨迹里盲目搜索,而是在更禁绝、更可诠释的谈话决策中试错。
MindDrive跑分
论文扬弃骄横,MindDrive使用轻量级Qwen-0.5B大谈话模子,在Bench2Drive上获得Driving Score 78.04和Success Rate 55.09%。
2、DriveFine:清除旅途驾驶风险
如若说MindDrive搞定的是“模子如何学会更好地判断”,那么DriveFine搞定的则是“模子判断之后,能弗成先改一遍再实行”。
生成式自动驾驶筹划有一个很履行的风险,好多模子像写句子雷同一步步生成轨迹,如若前边某个判断偏了,后续轨迹就可能一齐偏下去。
针对这一问题,DriveFine的谜底是“先生成、再修正”。
DriveFine旅途决策对比
它提议一种掩码扩散式视觉-谈话-算作模子,并联想了即插即用的块级搀和民众结构:生成民众先给出开动轨迹,修耿直众再对轨迹进行二次优化。
通过推理时显式聘用民众、窥察时顽固梯度,DriveFine将“生成”和“修正”解耦,既保留预窥察模子已有材干,又给模子注入自我优化材干。
论文还联想了搀和强化学习战略,在饱读吹修耿直众探索的同期保抓窥察健硕,并在 NAVSIM v1、NAVSIM v2 和 Navhard 等基准上考据了鲁棒性。
DriveFine跑分
DriveFine让模子里面具备“反念念”材干,先给出一个驾驶有筹划,再查验它是否安全、平顺、合理,终末在确实实行前完成修正,这么进一步普及了自动驾驶的健硕性。
三、让模子不单学会“如何开” 也知谈“什么弗成作念”天下模子搞定“畴昔会若何”,VLA模子搞定“应该如何开”,但对自动驾驶来说,还有一个更底层的问题,那即是模子是否确实知谈,哪些算作看起来接近正确,实质上却很危急?
这恰是BeyondDrive这篇论文的切入点。
已往好多端到端自动驾驶模子依赖效法学习,也即是让模子尽量逼近民众轨迹。
但这里有一个容易被忽略的罗网:离民众轨迹近,不等于安全。
毕竟,两条轨迹在几何距离上可能只差少量点,模子窥察时的蚀本也差未几,但扬弃可能全王人不同。
一条还能安全通过,另一条可能几秒后就会碰撞。
论文中指出,传统效法学习默许“空迤逦近等于步履安全”,这会酿成目的错配——相似的效法舛错,可能对应全王人不同的安全扬弃。
BeyondDrive架构
因此,BeyondDrive的主要责任即是让模子学会识别“危急的相似谜底”。
它的步伐不错聚拢成给自动驾驶模子缔造一册“错题本”。模子不单看正确轨迹,还要看那些看起来很接近民众、但其实不安全的轨迹。
论文通过基于流匹配的负样本生成器,主动合成这类艰巨负样本;这些负样本在空间上接近民众轨迹,但在安全语义上存在风险。
随后,BeyondDrive 再用一种摒除距离蚀本,让模子一边围聚民众轨迹,一弥隔离危急负样本,从而在轨迹空间里缔造更透露的安全畛域。
这个念念路的价值在于,它把自动驾驶窥察从“只学正确谜底”,鼓动到了“同期聚拢失实谜底为什么危急”,这对长尾场景尤其环节。
确实谈路上的风险,好多时刻不是那种一眼就错的算作,而是那些差少量就对了、但关节时刻会出事的算作。
比如贴着前车过近、在路口略略偏向冲突区域、避让行东谈主时留出的安全余量不够。
这些轨迹可能在窥察蚀本上并不显眼,却决定了系统在闭环驾驶中的安全上限。
BeyondDrive跑分
从实验扬弃看,BeyondDrive不错迁徙到不同端到端驾驶架构中,它运用在Latent TransFuser基线上,在NAVSIMv1闭环基准上达到89.7 PDMS,在MeanFuser + BeyondDrive跑分达到90.3 PDMS。
如斯来看开yun体育网,BeyondDrive再行界说自动驾驶模子该学什么,安全不是只靠更接近民众轨迹就能得到的,模子必须显式知谈:哪些聘用固然看起来合理,但依然进步了安全畛域。
结语:小米自动驾驶再放大招从这五篇论文不错看到,小米自动驾驶谈论的重点在于搭建一条更完满的本领链路。
本领团队用天下模子预演畴昔,用视觉-谈话-算作模子形成决策,用强化学习优化判断,用安全负样本划清畛域,再用自我修正普及筹划鲁棒性。
如斯来看,自动驾驶的下一步,不仅仅让车“看得更昭彰”,而是让车确实聚拢它所处的交通天下——知谈畴昔可能发生什么,知谈我方为什么这么开,也知谈哪些聘用必须提前避让。