Recoleta Item Note

Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models

本文提出一个面向视觉-语言-动作（VLA）模型的自适应推理框架，根据当前状态复杂度在直接执行（Act）、**额外推理（Think）和拒绝执行（Abstain）**之间切换，以兼顾效率、泛化与安全。核心发现是：用于判断任务复杂度时，视觉嵌入比语言或融合特征更可靠。

vision-language-actionadaptive-inferenceood-detectionrobot-safetyuncertainty-estimation

Summary

本文提出一个面向视觉-语言-动作（VLA）模型的自适应推理框架，根据当前状态复杂度在直接执行（Act）、**额外推理（Think）和拒绝执行（Abstain）**之间切换，以兼顾效率、泛化与安全。核心发现是：用于判断任务复杂度时，视觉嵌入比语言或融合特征更可靠。

从预训练VLA/SmolVLA的VLM骨干中提取vision、text、fused三类嵌入；作者还专门让文本编码不看图像，以分离语言不确定性。
先用PCA降到64维，再用两类新颖度估计器给特征打分：GMM+Mahalanobis距离建模全局分布，1-NN捕捉局部异常；GMM使用Ledoit-Wolf shrinkage稳定协方差估计。
将分数汇总为一个小向量（主要含视觉/文本/融合的GMM分数和视觉kNN分数），输入轻量MLP，输出三类决策：Act / Think / Abstain。
“Think”分支只在每个episode首个时刻触发一次，追加场景线索和子目标到文本提示中，再交给VLA执行；“Abstain”则直接拒绝高风险OOD任务。
为了训练中间态“部分OOD/Think”，作者除使用LIBERO-PRO外，还用Beta(0.5,0.5) mixup在ID与OOD特征之间合成中间样本。

在LIBERO / LIBERO-PRO / 真实机器人（SO-ARM 101）上评估；最佳配置为MLP + GMM（vision-only），Macro F1 = 84.34%，优于所有替代方案。
与直接在原始嵌入上训练的Baseline MLP相比，作者方法显著更强：Baseline仅63.81% Macro F1；且86% 的“Think”样本被误判为“Act”，说明基线对模糊场景过度自信。
视觉kNN也有竞争力，达到73.90% F1，并且作者称其在混淆矩阵中**“Act”和“Abstain”之间无混淆**，即不会把应停止的任务误放行为直接执行。
多模态并未带来收益：ensemble（all GMM + kNN）71.41% F1，text-only 54.76% F1，且text-only对“Think”类别一个也没识别对。这支持“语言语义不变性会掩盖物理异常”的论点。
数据效率方面，baseline在不同数据量下几乎停留在F1≈0.60；而vision-only GMM在仅用1%数据（少于1000样本）时就比baseline高15%，并在5%数据时接近峰值性能。摘要还报告其vision-only配置仅用5%训练数据即可达到80% F1。
GMM组件数消融显示最佳为k=3；k=1明显不足，而更大k带来收益递减和额外计算开销。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.