Recoleta Item Note

Overcoming Visual Clutter in Vision Language Action Models via Concept-Gated Visual Distillation

本文提出CGVD，一种面向视觉-语言-动作（VLA）模型的免训练、与模型无关的推理时视觉蒸馏方法，用于缓解杂乱场景中的“精度-推理鸿沟”。核心思想是在动作策略看到图像前，先基于语言识别并移除干扰物，从而保留目标与几何线索。

vision-language-actionrobot-manipulationclutter-robustnessinference-timevisual-distillation

Summary

CGVD是一个包裹在任意VLA外部的推理框架：先把指令解析为安全集合（目标物、锚点物、机器人）和干扰集合，只有安全集合必须被保留。
用SAM3分别对安全集合和干扰集合做文本提示分割，得到两路mask；通过集合减法构造待删除区域，结构上避免把目标当成干扰物抹掉。
提出两层目标细化：第一层用“目标置信度 - 干扰置信度”的真实性分数交叉验证，显式惩罚伪目标；第二层在连通区域上结合真实性和置信度打分，只保留最可信的目标实例。
对干扰区域使用基于傅里叶卷积的LaMa修补，生成“干净背景”；随后在每帧把实时图像与缓存干净场景进行合成，并强制保留机器人区域，避免破坏视觉本体感知。
整个方法无需修改或训练VLA参数，重计算主要集中在初始化帧，后续帧只做轻量合成。

在Spoon on Towel任务、18个语义干扰物、基座策略为π0时，CGVD成功率从43.0%提升到77.5%，比基线高34.5个百分点。
消融实验显示：去掉双层目标细化后，成功率从77.5%降到65.0%；把LaMa替换为mean-color fill后降到56.5%；去掉机器人mask保护后降到73.0%，说明各组件都有贡献。
属性干扰实验（Put spoon with green handle on towel）中，复杂提示下基线从85.0%（0干扰）降到57.0%（4干扰）；CGVD在4个干扰物时达到73.0%，比基线高16.0个百分点。简单提示下，CGVD在2/3/4个干扰物时分别比基线高14.0/7.0/12.0个百分点。
论文称在高密度语义杂乱中，CGVD能阻止策略性能崩塌，并且在两类VLA（π0、GR00T）和大量rollout中表现更稳；图3结果基于19,200个episode汇总。
延迟方面，CGVD将重计算放在初始化：t=0为4914 ms；执行阶段基线317 ms、CGVD 421 ms，即每步增加约104 ms，作者认为仍保持接近原控制频率。
但结果并非全面占优：在Carrot on Plate这类可能受益于环境上下文的任务中，CGVD有时低于基线，表明激进去杂乱会牺牲某些依赖背景线索的场景表现。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.