Recoleta Item Note

AR-VLA: True Autoregressive Action Expert for Vision-Language-Action Models

AR-VLA提出了一种真正跨时间自回归的动作专家,把机器人控制视为连续动作序列生成,而不是每次看一帧就重新预测一段动作。它的目标是在保留或提升任务成功率的同时,显著增强历史感知、轨迹平滑性和长时程控制稳定性。

vision-language-actionautoregressive-policyrobot-controlgeneralist-robot-policylong-horizon-manipulation

AR-VLA提出了一种真正跨时间自回归的动作专家,把机器人控制视为连续动作序列生成,而不是每次看一帧就重新预测一段动作。它的目标是在保留或提升任务成功率的同时,显著增强历史感知、轨迹平滑性和长时程控制稳定性。

  • 现有VLA、扩散策略和动作分块方法大多是反应式的:每次新观测到来时都会重置上下文,缺少持续的动作/状态记忆。
  • 这种“Markovian amnesia”会让机器人难以利用长期运动历史,导致控制抖动、时序不连贯,并在长时程或部分可观测任务中失败。
  • 机器人中还存在慢感知/快控制的频率错配:重型视觉语言骨干更新慢,但电机控制需要高频连续输出,因此需要一种能在视觉延迟下仍稳定工作的动作生成机制。
  • 提出一个独立的autoregressive action expert:像语言模型逐token生成文本一样,模型逐时刻生成连续动作,并显式条件于过去动作与本体状态历史,以及最近可用的视觉语言前缀。
  • 设计Hybrid Key-Value Cache (HKV):把记忆拆成两路,动作/本体流使用长寿命滚动FIFO缓存,视觉语言流使用低频刷新、单槽替换的语义前缀缓存,从而解耦快控制与慢感知。
  • 提出Dynamic Temporal Re-anchoring (DTR):给视觉语言token打上“采样时刻”锚点,利用RoPE相对位置特性让模型显式理解图像有多“旧”,从而在训练和推理时处理异步、多延迟输入。
  • 采用两阶段训练:先做仅动作预训练,学习运动学“语法”;再做视觉-动作对齐,并通过历史dropout迫使模型在历史不完整时仍利用视觉前缀。
  • BridgeV2训练、SimplerEnv评测的通才VLA设置中,AR-VLA平均成功率达到 61.5%,高于第二名 CogACT 52.1%,领先 +9.4%
  • 与相同 Paligemma-3B + 300M 规模、共享同一VLM骨干的基线相比,AR-VLA优于 Pi-0-Fast 49.0%Pi-0.5 51.0%
  • 分任务结果中,AR-VLA在 spoon 任务上达到 75.0%,高于 Pi-0-Fast 62.5%Pi-0.5 58.3%
  • 在需要更精细操作的 carrot 任务上,AR-VLA达到 54.2%,明显优于 Pi-0-Fast 29.2%Pi-0.5 33.3%
  • 论文还声称其在真实机器人操作、专家策略替换、轨迹平滑性、长时程任务上优于或不差于SOTA反应式VLA/扩散基线,但给定摘录未提供这些部分的完整定量表格数字。
  • 定性上,作者声称AR-VLA生成的关节轨迹更平滑、更符合运动学一致性,并且在 PushT2Stack3 等强调历史依赖的长时程任务中能成功,而 DPFM 等基线会因缺乏时序上下文而失败。
Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.