Recoleta Item Note

Overcoming Visual Clutter in Vision Language Action Models via Concept-Gated Visual Distillation

本文提出CGVD,一种面向视觉-语言-动作(VLA)模型的免训练、与模型无关的推理时视觉蒸馏方法,用于缓解杂乱场景中的“精度-推理鸿沟”。核心思想是在动作策略看到图像前,先基于语言识别并移除干扰物,从而保留目标与几何线索。

vision-language-actionrobot-manipulationclutter-robustnessinference-timevisual-distillation

本文提出CGVD,一种面向视觉-语言-动作(VLA)模型的免训练、与模型无关的推理时视觉蒸馏方法,用于缓解杂乱场景中的“精度-推理鸿沟”。核心思想是在动作策略看到图像前,先基于语言识别并移除干扰物,从而保留目标与几何线索。

  • 解决的问题:VLA模型在干净场景中零样本泛化强,但在杂乱操作环境中会因背景和语义相似干扰物导致注意力被稀释,出现抓错物体、轨迹犹豫和操作失败。
  • 为什么重要:真实机器人常在人类环境中工作,目标附近往往存在语义或视觉相近的物体;如果模型不能在杂乱中稳定定位目标,泛化能力就难以真正落地。
  • 现有方法要么需要昂贵重训练/微调,要么依赖外部API和多次前向探测,推理时保护目标仍不够可靠。
  • CGVD是一个包裹在任意VLA外部的推理框架:先把指令解析为安全集合(目标物、锚点物、机器人)和干扰集合,只有安全集合必须被保留。
  • 用SAM3分别对安全集合和干扰集合做文本提示分割,得到两路mask;通过集合减法构造待删除区域,结构上避免把目标当成干扰物抹掉。
  • 提出两层目标细化:第一层用“目标置信度 - 干扰置信度”的真实性分数交叉验证,显式惩罚伪目标;第二层在连通区域上结合真实性和置信度打分,只保留最可信的目标实例。
  • 对干扰区域使用基于傅里叶卷积的LaMa修补,生成“干净背景”;随后在每帧把实时图像与缓存干净场景进行合成,并强制保留机器人区域,避免破坏视觉本体感知。
  • 整个方法无需修改或训练VLA参数,重计算主要集中在初始化帧,后续帧只做轻量合成。
  • Spoon on Towel任务、18个语义干扰物、基座策略为π0时,CGVD成功率从43.0%提升到77.5%,比基线高34.5个百分点
  • 消融实验显示:去掉双层目标细化后,成功率从77.5%降到65.0%;把LaMa替换为mean-color fill后降到56.5%;去掉机器人mask保护后降到73.0%,说明各组件都有贡献。
  • 属性干扰实验(Put spoon with green handle on towel)中,复杂提示下基线从85.0%(0干扰)降到57.0%(4干扰);CGVD在4个干扰物时达到73.0%,比基线高16.0个百分点。简单提示下,CGVD在2/3/4个干扰物时分别比基线高14.0/7.0/12.0个百分点
  • 论文称在高密度语义杂乱中,CGVD能阻止策略性能崩塌,并且在两类VLA(π0、GR00T)和大量rollout中表现更稳;图3结果基于19,200个episode汇总。
  • 延迟方面,CGVD将重计算放在初始化:t=0为4914 ms;执行阶段基线317 ms、CGVD 421 ms,即每步增加约104 ms,作者认为仍保持接近原控制频率。
  • 但结果并非全面占优:在Carrot on Plate这类可能受益于环境上下文的任务中,CGVD有时低于基线,表明激进去杂乱会牺牲某些依赖背景线索的场景表现。
Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.