Recoleta Item Note
Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models
本文提出一个面向视觉-语言-动作(VLA)模型的自适应推理框架,根据当前状态复杂度在 直接执行(Act) 、**额外推理(Think) 和 拒绝执行(Abstain)**之间切换,以兼顾效率、泛化与安全。核心发现是:用于判断任务复杂度时, 视觉嵌入比语言或融合特征更可靠。
Summary
本文提出一个面向视觉-语言-动作(VLA)模型的自适应推理框架,根据当前状态复杂度在直接执行(Act)、**额外推理(Think)和拒绝执行(Abstain)**之间切换,以兼顾效率、泛化与安全。核心发现是:用于判断任务复杂度时,视觉嵌入比语言或融合特征更可靠。
Problem
- 现有VLA常通过链式思维等推理提升泛化,但所有时刻都推理会增加计算成本和延迟,对简单任务浪费资源。
- 这些方法通常缺少不确定性/分布外识别能力,在OOD任务上可能过度自信并导致灾难性执行失败。
- 机器人部署需要同时满足实时性、泛化性和安全性,因此需要一种能先判断“该不该直接做”的机制。
Approach
- 从预训练VLA/SmolVLA的VLM骨干中提取vision、text、fused三类嵌入;作者还专门让文本编码不看图像,以分离语言不确定性。
- 先用PCA降到64维,再用两类新颖度估计器给特征打分:GMM+Mahalanobis距离建模全局分布,1-NN捕捉局部异常;GMM使用Ledoit-Wolf shrinkage稳定协方差估计。
- 将分数汇总为一个小向量(主要含视觉/文本/融合的GMM分数和视觉kNN分数),输入轻量MLP,输出三类决策:Act / Think / Abstain。
- “Think”分支只在每个episode首个时刻触发一次,追加场景线索和子目标到文本提示中,再交给VLA执行;“Abstain”则直接拒绝高风险OOD任务。
- 为了训练中间态“部分OOD/Think”,作者除使用LIBERO-PRO外,还用Beta(0.5,0.5) mixup在ID与OOD特征之间合成中间样本。
Results
- 在LIBERO / LIBERO-PRO / 真实机器人(SO-ARM 101)上评估;最佳配置为MLP + GMM(vision-only),Macro F1 = 84.34%,优于所有替代方案。
- 与直接在原始嵌入上训练的Baseline MLP相比,作者方法显著更强:Baseline仅63.81% Macro F1;且86% 的“Think”样本被误判为“Act”,说明基线对模糊场景过度自信。
- 视觉kNN也有竞争力,达到73.90% F1,并且作者称其在混淆矩阵中**“Act”和“Abstain”之间无混淆**,即不会把应停止的任务误放行为直接执行。
- 多模态并未带来收益:ensemble(all GMM + kNN)71.41% F1,text-only 54.76% F1,且text-only对“Think”类别一个也没识别对。这支持“语言语义不变性会掩盖物理异常”的论点。
- 数据效率方面,baseline在不同数据量下几乎停留在F1≈0.60;而vision-only GMM在仅用1%数据(少于1000样本)时就比baseline高15%,并在5%数据时接近峰值性能。摘要还报告其vision-only配置仅用5%训练数据即可达到80% F1。
- GMM组件数消融显示最佳为k=3;k=1明显不足,而更大k带来收益递减和额外计算开销。
Link
Built with Recoleta
Run your own research radar
Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.