Recoleta Item Note

History-Conditioned Spatio-Temporal Visual Token Pruning for Efficient Vision-Language Navigation

本文提出一种面向视觉-语言导航(VLN)的 免训练时空视觉token剪枝 方法,在不改动预训练VLA模型的前提下,降低推理延迟并尽量保留导航性能。核心思想是对当前帧与历史帧采用不同剪枝策略:当前帧保留空间覆盖,历史帧按与当前任务相关性进行时空压缩。

vision-language-navigationvision-language-actiontoken-pruningspatio-temporal-reasoningefficient-inference

本文提出一种面向视觉-语言导航(VLN)的免训练时空视觉token剪枝方法,在不改动预训练VLA模型的前提下,降低推理延迟并尽量保留导航性能。核心思想是对当前帧与历史帧采用不同剪枝策略:当前帧保留空间覆盖,历史帧按与当前任务相关性进行时空压缩。

  • 视觉-语言-动作(VLA)模型在VLN中表现强,但Transformer视觉token很多,导致推理延迟高,难以满足机器人实时闭环导航需求。
  • 现有视觉token剪枝方法多面向单帧或通用视觉模型,没有显式利用VLN对历史观察和时空关系的依赖
  • 在高剪枝率下,若只看显著性或只看文本相关性,容易保留冗余但相似的token,丢失对导航决策关键的互补信息。
  • 对所有视觉patch先计算基础重要性:用视觉编码器中全局[CLS] token与各patch token的余弦相似度,作为该patch的显著性分数。
  • 当前帧,使用自适应最大边际相关(A-MMR)迭代选token:每次选择“重要且与已选token不同”的token,简单说就是同时保留关键目标和多样背景,避免重复。
  • 历史帧,先用当前帧剪枝后的token作为查询,计算每个历史token与当前视图的最大相似度,再把这个相关性和基础重要性相乘得到新分数。
  • 再对历史token应用同样的A-MMR,得到一个紧凑但信息充分的记忆池,最后送入投影层和LLM预测导航动作。
  • 整个方法无需重训练、无需修改预训练模型,可直接插入现有VLA导航系统中。
  • R2R val-unseen90%剪枝(保留72/729 token)下,本文方法达到 SR 47.63、SPL 36.36、OS 68.46、NE 5.69;对比 SparseVLM 31.08 SPLDivPrune 18.55 SPLVisPruner 29.27 SPL,SPL分别提升 5.28、17.81、7.09 个点。
  • RxR val-unseen90%剪枝 下,本文方法达到 SR 45.71、SPL 32.91、nDTW 47.69、NE 6.90;对比 SparseVLM 20.87 SPLDivPrune 14.56 SPLVisPruner 25.34 SPL,SPL分别提升 12.04、18.35、7.57 个点。
  • 延迟方面,文中称在 90%剪枝 时,CUDA推理延迟从未剪枝的 231.34 ms 降到 213.40 ms,并比 SparseVLM、DivPrune、VisPruner 进一步快 6.09 ms、7.31 ms、10.96 ms
  • 与未剪枝模型比较,90%剪枝时性能仍有下降,但保持相对稳健:例如 R2R SPL 从 49.66 降到 36.36RxR SPL 从 47.26 降到 32.91,说明该方法在极高压缩下比现有剪枝更能保留任务相关信息。
  • 消融实验(R2R)显示“语义重要性+多样性”组合最有效:在 90%剪枝 下,完整设置 SPL 36.51,优于仅多样性 36.18,显著优于仅语义 27.80;说明同时考虑“重要”与“去冗余”是关键。
  • 论文还报告了在 Unitree Go2 四足机器人 上的真实部署,声称实现了可靠、低延迟的指令跟随导航,但摘录中未提供真实机器人定量指标
Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.