开yun体育网它们让模子不仅能感知环境-开云(中国)Kaiyun·官方网站登录入口

发布日期：2026-07-05 07:00 点击次数：100

车东西

作家｜ Janson

裁剪｜志豪

小米在海外谋略机视觉顶会ECCV 2026上，一次性拿下了12篇论文！

车东西7月3日音书，据小米本领泄露，在海外谋略机视觉顶会ECCV 2026上，小米AI团队和小米自动驾驶团队多篇论文被及第。

小米12篇论文入选ECCV 2026

托福的这12篇论文中，有5篇王人与自动驾驶径直关联，它们分别是CausalDrive、MindDrive、DriveVA、BeyondDrive和DriveFine。

五篇论文看似主义不同：有的谈论天下模子，有的谈论VLA决策，有的谈论在线强化学习，有的谈论安全负样本，有的谈论轨迹自修正。

但放在一齐看，它们其实王人在恢复归拢个问题：自动驾驶如何从“看见谈路”，走向“聚拢天下”？

毕竟，确实驾驶从来不仅仅识别车谈线、车辆和行东谈主。车需要聚拢前车刹车会带来什么四百四病，旁车是否会让行，行东谈主是否可能不竭横穿。同期，系统也需要知谈一个看似接近民众轨迹的算作，为什么可能在两秒后变成危急决策。

上述难题，也恰是小米这五篇 ECCV 自动驾驶关联论文试图共同恢复的问题。它们让模子不仅能感知环境，还能预见畴昔、聚拢交互、优化决策，并在风险出现前完成纠错。

值得一提的是，ECCV与CVPR、ICCV并称谋略机视觉三大顶会，据小米本领泄露，ECCV 2026共收到10473篇有用投稿，及第2883篇论文，及第率约27.5%，小米的12篇论文含金量可见一斑。

一、天下模子更新不唯有看见路还要“想象畴昔”

自动驾驶要确实走向复杂洞开谈路，弗成只依赖现时帧里的车谈线、车辆、行东谈主和红绿灯。

确实驾驶更像是一场连气儿博弈：自车向左并线，旁车会不会延缓？前车急刹，后车会如何响应？一个看似可行的轨迹，几秒后是否会把车辆带入冲突区域？

这就需要自动驾驶模子具备一种更高层的材干：天下模子。

所谓天下模子，浅近来说，即是让模子在脑海中“预演畴昔”——不仅预见接下来画面会变成什么样，还要聚拢现时算作会若何影响环境，周围交通参与者又会若何反过来影响自车决策。

小米此次ECCV 2026自动驾驶关联论文中，CausalDrive和DriveVA无意代表了天下模子主义的两个关节问题。

1、CausalDrive：从“生成畴昔视频”到“模拟交通因果”

好多自动驾驶天下模子，已往更像是一个视频生成器，给它现时画面和一些要求，它生成畴昔几秒谈路场景。

但问题是，确实交通不是一段被迫播放的视频，而是一个会对自车算作作出响应的动态系统。

比如，自车准备并线，傍边车辆可能让行，也可能加快通过；前车倏得刹车，后车会不会随着延缓，取决于距离、速率、驾驶意图等身分。

聚拢这些交通参与者之间的因果互动亦然关节。

CausalDrive架构

CausalDrive的中枢价值就在这里，论文指出，现存不少基于布局要求的驾驶天下模子依赖配景车辆畴昔轨迹，至极于提前知谈了其他交通参与者畴昔会如何走，因此并不是确实的交互式模拟。

而纯算作要求预见器又短少对复杂交互的语义规章，何况推理蔓延较高。

为了搞定这个问题，CausalDrive只使用开动前视图像、自车轨迹和宏不雅文本辅导，不输入畴昔NPC布局，从而迫使模子我方预见周围交通参与者的响应。

论文提议Context-Forced DMD（落魄文强制DMD）架构，邻接连气儿流匹配和自强异蒸馏，终昭彰12 FPS的交互式生成速率。

CausalDrive跑分

这意味着，CausalDrive把被迫的视频生成器鼓动成一个可交互的神经仿真器，模子不仅要知谈“畴昔画面长什么样”，还要聚拢“为什么会这么发生”。

这对自动驾驶的真谛很径直。确实谈路上的长尾情况很难全部靠收罗数据掩饰，如若模子能构建可控、实时、可反事实推演的交通天下，就不错用来作念闭环评测、强化学习窥察，致使东谈主机交互式仿真。

论文也展示了其在生成式闭环评测、大鸿沟强化学习后窥察以及东谈主在回路仿真中的运用后劲。

2、DriveVA：让“想象的畴昔”和“筹划的轨迹”保抓一致

如若说CausalDrive防御的是“交通天下如何因果互动”，那么DriveVA防御的是另一个关节问题：模子想象出来的畴昔，和它筹划出来的轨迹，能弗成一致？

现存不少天下模子筹划步伐，频频把畴昔视觉预见和轨迹筹辩别开处理，但这么作念的问题是，模子可能“想象出一个畴昔”，却筹划出一条并不匹配这个畴昔的道路。

也即是说，视频和算作是松耦合的。

DriveVA的步伐是，把畴昔视觉预见和车辆算作序列放进归拢个shared latent generative process（分享潜在生成经过）中长入生成。

论文基于大鸿沟预窥察视频生成模子，经受其对时空动态、物理合感性和因果交互的建模先验，并使用DiT-based decoder（基于 DiT 的解码器）同期预见畴昔视频和车辆算作序列。

这个联想搞定了自动驾驶中的一致性问题。对东谈主类司机来说，驾驶决策频频不是割裂的：咱们会一边不雅察周围车辆畅通，一边预见几秒后的交通景象，同期诊治我方的旅途。

而DriveVA让自动驾驶模子也具备这种材干，让畴昔视觉和算作在归拢套生成逻辑中完成。

DriveVA跑分

实验扬弃也比较有话题度，从跑分扬弃看，DriveVA在NAVSIM challenge上达到90.9 PDM score，并在零样本成就下展现出跨数据集、跨域泛化材干。

在nuScenes上，比较现存天下模子筹划器，DriveVA将平均L2 error和collision rate分别缩小78.9%和83.3%，在Bench2Drive/CARLA v2上则分别缩小52.5%和52.4%。

二、VLA不竭升级生成轨迹并学会“为什么这么开”

如若说天下模子搞定的是“畴昔会若何变化”，那么自动驾驶还必须恢复下一个问题：濒临这个畴昔，车应该如何作念？

已往的端到端自动驾驶，更像是在学习民众轨迹，这种式样能掩饰无数常见场景，却很难搞定两个问题：一是遭遇窥察数据除外的长尾情况，模子短少主动试错和自我改进材干；二是轨迹一朝生成出错，后续很容易舛错积累，难以实时回头修正。

这恰是MindDrive和DriveFine两篇论文切入的所在，它们王人属于VLA模子，让自动驾驶模子不仅仅“看图输出轨迹”，而是先聚拢场景、形成驾驶意图，再转动为具体行为。

1、MindDrive模子若何在确实交互中学会更好的决策

自动驾驶天然不错通过强化学习“边试边学”，但难点在于，车辆算作是连气儿轨迹空间，速率、主义、加快度、位置点组合极其复杂，径直在轨迹里试错成果很低。

MindDrive的作念法，是把试错从连气儿轨迹空间上移到谈话决策空间。

模子先判断“延缓让行”“保抓车谈”“逐渐左转避让行东谈主”等驾驶意图，再由算作民众把这些意图映射成具体轨迹。

论文中，MindDrive采纳分享视觉-谈话模子基座，并通过两套LoRA（一种大模子参数高效微调本领）适配模块形成两个民众。

MindDrive架构

一个致密场景推理和驾驶决策，另一个致密把谈话决策转成可实行轨迹；车辆实行后的轨迹奖励，则反馈到谈话推理层，用来优化下一次决策。

这一步的真谛在于，模子不再仅仅效法“民众那时如何开”，而是入手学习“这个场景下为什么应该这么开”。

强化学习也不再是在海量连气儿轨迹里盲目搜索，而是在更禁绝、更可诠释的谈话决策中试错。

MindDrive跑分

论文扬弃骄横，MindDrive使用轻量级Qwen-0.5B大谈话模子，在Bench2Drive上获得Driving Score 78.04和Success Rate 55.09%。

2、DriveFine：清除旅途驾驶风险

如若说MindDrive搞定的是“模子如何学会更好地判断”，那么DriveFine搞定的则是“模子判断之后，能弗成先改一遍再实行”。

生成式自动驾驶筹划有一个很履行的风险，好多模子像写句子雷同一步步生成轨迹，如若前边某个判断偏了，后续轨迹就可能一齐偏下去。

针对这一问题，DriveFine的谜底是“先生成、再修正”。

DriveFine旅途决策对比

它提议一种掩码扩散式视觉-谈话-算作模子，并联想了即插即用的块级搀和民众结构：生成民众先给出开动轨迹，修耿直众再对轨迹进行二次优化。

通过推理时显式聘用民众、窥察时顽固梯度，DriveFine将“生成”和“修正”解耦，既保留预窥察模子已有材干，又给模子注入自我优化材干。

论文还联想了搀和强化学习战略，在饱读吹修耿直众探索的同期保抓窥察健硕，并在 NAVSIM v1、NAVSIM v2 和 Navhard 等基准上考据了鲁棒性。

DriveFine跑分

DriveFine让模子里面具备“反念念”材干，先给出一个驾驶有筹划，再查验它是否安全、平顺、合理，终末在确实实行前完成修正，这么进一步普及了自动驾驶的健硕性。

三、让模子不单学会“如何开” 也知谈“什么弗成作念”

天下模子搞定“畴昔会若何”，VLA模子搞定“应该如何开”，但对自动驾驶来说，还有一个更底层的问题，那即是模子是否确实知谈，哪些算作看起来接近正确，实质上却很危急？

这恰是BeyondDrive这篇论文的切入点。

已往好多端到端自动驾驶模子依赖效法学习，也即是让模子尽量逼近民众轨迹。

但这里有一个容易被忽略的罗网：离民众轨迹近，不等于安全。

毕竟，两条轨迹在几何距离上可能只差少量点，模子窥察时的蚀本也差未几，但扬弃可能全王人不同。

一条还能安全通过，另一条可能几秒后就会碰撞。

论文中指出，传统效法学习默许“空迤逦近等于步履安全”，这会酿成目的错配——相似的效法舛错，可能对应全王人不同的安全扬弃。

BeyondDrive架构

因此，BeyondDrive的主要责任即是让模子学会识别“危急的相似谜底”。

它的步伐不错聚拢成给自动驾驶模子缔造一册“错题本”。模子不单看正确轨迹，还要看那些看起来很接近民众、但其实不安全的轨迹。

论文通过基于流匹配的负样本生成器，主动合成这类艰巨负样本；这些负样本在空间上接近民众轨迹，但在安全语义上存在风险。

随后，BeyondDrive 再用一种摒除距离蚀本，让模子一边围聚民众轨迹，一弥隔离危急负样本，从而在轨迹空间里缔造更透露的安全畛域。

这个念念路的价值在于，它把自动驾驶窥察从“只学正确谜底”，鼓动到了“同期聚拢失实谜底为什么危急”，这对长尾场景尤其环节。

确实谈路上的风险，好多时刻不是那种一眼就错的算作，而是那些差少量就对了、但关节时刻会出事的算作。

比如贴着前车过近、在路口略略偏向冲突区域、避让行东谈主时留出的安全余量不够。

这些轨迹可能在窥察蚀本上并不显眼，却决定了系统在闭环驾驶中的安全上限。

BeyondDrive跑分

从实验扬弃看，BeyondDrive不错迁徙到不同端到端驾驶架构中，它运用在Latent TransFuser基线上，在NAVSIMv1闭环基准上达到89.7 PDMS，在MeanFuser + BeyondDrive跑分达到90.3 PDMS。

如斯来看开yun体育网，BeyondDrive再行界说自动驾驶模子该学什么，安全不是只靠更接近民众轨迹就能得到的，模子必须显式知谈：哪些聘用固然看起来合理，但依然进步了安全畛域。

结语：小米自动驾驶再放大招

从这五篇论文不错看到，小米自动驾驶谈论的重点在于搭建一条更完满的本领链路。

本领团队用天下模子预演畴昔，用视觉-谈话-算作模子形成决策，用强化学习优化判断，用安全负样本划清畛域，再用自我修正普及筹划鲁棒性。

如斯来看，自动驾驶的下一步，不仅仅让车“看得更昭彰”，而是让车确实聚拢它所处的交通天下——知谈畴昔可能发生什么，知谈我方为什么这么开，也知谈哪些聘用必须提前避让。

开yun体育网它们让模子不仅能感知环境-开云(中国)Kaiyun·官方网站 登录入口

友情链接：

开yun体育网它们让模子不仅能感知环境-开云(中国)Kaiyun·官方网站登录入口