Recoleta Item Note

ATA: Bridging Implicit Reasoning with Attention-Guided and Action-Guided Inference for Vision-Language Action Models

ATA 是一个用于视觉-语言-动作（VLA）模型的免训练推理框架，通过注意力引导和动作引导两种隐式推理信号，在不增加标注或重新训练的前提下提升机器人控制表现。它的核心卖点是即插即用、计算开销小，并同时改善成功率、鲁棒性与部分场景下的推理效率。

vision-language-actioninference-time-guidanceimplicit-reasoningrobot-manipulationsim-to-real

Summary

ATA 是training-free 的推理时增强方法：先用原模型做一次前向，提取隐含线索，再把图像做“重点突出、背景压低”的处理后重新送入同一个 VLA。
Attention-guided：从模型中间层提取最后 query token 对图像 patch 的注意力，聚合并归一化为掩码，突出模型自己认为与任务相关的视觉区域。
Action-guided：利用机械臂末端执行器位姿和相机参数，把“可能的运动方向”投影到图像上，构造一个扇形/锥形软 RoI，强调动作意图相关区域。
两种信号按调度结合：通常首帧使用注意力引导，早期步骤使用动作引导，以减少早期错误在长预测 horizon 中传播。
该方法不需要 CoT、框、mask 或额外监督，且可插接到 OpenVLA、pi0-fast、HybridVLA、GR00T-N1.5 等不同 VLA 模型上。

在 LIBERO 环境中，ATA 使 OpenVLA 的性能提升 5.2%，使 pi0-fast 提升 2.0%。
在 RLBench 环境中，ATA 使 HybridVLA 提升 5.3%。
在真实世界 GR00T-N1.5 三层积木堆叠任务中（积木尺寸 3cm × 3cm × 3cm），复杂场景下性能提升最高 10%。
论文声称 ATA 在提升任务成功率和鲁棒性的同时，能够保持甚至提升推理效率；方法仅在施加引导时引入一次额外前向，但摘要未给出统一的延迟/吞吐数值对比。
实验覆盖多种主流 VLA：OpenVLA、pi0-fast、HybridVLA、GR00T-N1.5，并横跨仿真与真实机器人场景，强调其即插即用泛化性。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.