Recoleta Item Note

EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

EvoDriveVLA提出一种面向自动驾驶VLA模型的协同蒸馏框架,同时改进感知与规划。核心思想是用“自锚定”保护视觉表征、用“oracle教师”提供更强轨迹监督,从而提升开环和闭环驾驶性能。

autonomous-drivingvision-language-actionknowledge-distillationtrajectory-planningperception-planningclosed-loop-evaluation

EvoDriveVLA提出一种面向自动驾驶VLA模型的协同蒸馏框架,同时改进感知与规划。核心思想是用“自锚定”保护视觉表征、用“oracle教师”提供更强轨迹监督,从而提升开环和闭环驾驶性能。

  • 现有自动驾驶VLA在微调时,解冻视觉编码器容易破坏预训练得到的通用感知能力,导致感知退化。
  • 长时域轨迹规划容易不稳定;而常规蒸馏中的教师若与学生训练条件相同,规划能力并没有明显优势,难以提供高质量指导。
  • 现有多轨迹蒸馏通常依赖预定义规划词表,轨迹多样性和场景适应性仍受限,这会影响真实驾驶中的泛化与安全性。
  • 提出collaborative perception-planning distillation:把感知蒸馏和规划蒸馏联合起来,而不是只蒸馏最终轨迹。
  • 在感知侧,使用self-anchored visual distillation:先复制学生当前视觉编码器作为“自锚定教师”,训练时让学生视觉token不要偏离太多,从而在适应驾驶任务时保留原有视觉能力。
  • 设计AnchorFormer,利用指令、车辆状态和真实未来轨迹,为不同视觉区域分配不同锚定强度;与未来轨迹更相关的关键区域被更强约束。
  • 在规划侧,构建使用未来图像与未来自车状态的future-aware oracle teacher,先生成粗轨迹,再做coarse-to-fine refinement得到更优轨迹候选。
  • 再通过MC-dropout sampling以较低额外开销生成更多高质量、多样化候选,并选择与真值交叉熵最小的候选作为软目标,对学生的隐藏状态和logits做双层蒸馏。
  • nuScenes开环评测上取得SOTA。以ST-P3 protocol为例,EvoDriveVLA的平均L2误差为0.26 m,优于DiMA 0.27 mOpenDriveVLA 0.33 mOmniDrive 0.33 m;3s L2为0.43 m,优于DiMA 0.44 m
  • nuScenes / ST-P3 collision上,平均碰撞率为0.06%,与DistillDrive 0.06%持平,优于DiMA 0.08%OpenDriveVLA 0.10%;3s collision为0.12%,优于DiMA 0.15%
  • nuScenes开环评测(UniAD protocol)上,平均L2为0.52 m,优于DiMA 0.57 mOpenDriveVLA 0.67 mGPT-Driver 0.84 m;其中1s/2s/3s L2分别为0.16/0.44/0.96 m
  • 但在UniAD protocol collision上并非所有指标都最优:EvoDriveVLA平均碰撞率为0.12%,高于DiMA 0.07%OpenDriveVLA 0.30%中的最优项分量表现不一致;例如2s collision为0.02%优于DiMA 0.05%,但3s为0.33%高于DiMA 0.16%
  • NAVSIM闭环 navtest上,EvoDriveVLA的PDMS为85.3,优于PARA-Drive 84.0TransFuser 84.0UniAD 83.4QwenVL2.5-8B 83.3;同时EP=81.1,高于UniAD 78.8InternVL3-8B 78.9
  • 闭环其他指标也达到最佳或并列最佳:NC 98.0DAC 93.3TTC 93.1Comfort 100,整体显示其不仅开环预测更准,也能提升真实决策闭环表现。
Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.