Recoleta Item Note

AR-VLA: True Autoregressive Action Expert for Vision-Language-Action Models

AR-VLA提出了一种真正跨时间自回归的动作专家，把机器人控制视为连续动作序列生成，而不是每次看一帧就重新预测一段动作。它的目标是在保留或提升任务成功率的同时，显著增强历史感知、轨迹平滑性和长时程控制稳定性。

vision-language-actionautoregressive-policyrobot-controlgeneralist-robot-policylong-horizon-manipulation

Summary

提出一个独立的autoregressive action expert：像语言模型逐token生成文本一样，模型逐时刻生成连续动作，并显式条件于过去动作与本体状态历史，以及最近可用的视觉语言前缀。
设计Hybrid Key-Value Cache (HKV)：把记忆拆成两路，动作/本体流使用长寿命滚动FIFO缓存，视觉语言流使用低频刷新、单槽替换的语义前缀缓存，从而解耦快控制与慢感知。
提出Dynamic Temporal Re-anchoring (DTR)：给视觉语言token打上“采样时刻”锚点，利用RoPE相对位置特性让模型显式理解图像有多“旧”，从而在训练和推理时处理异步、多延迟输入。
采用两阶段训练：先做仅动作预训练，学习运动学“语法”；再做视觉-动作对齐，并通过历史dropout迫使模型在历史不完整时仍利用视觉前缀。

在BridgeV2训练、SimplerEnv评测的通才VLA设置中，AR-VLA平均成功率达到 61.5%，高于第二名 CogACT 52.1%，领先 +9.4%。
与相同 Paligemma-3B + 300M 规模、共享同一VLM骨干的基线相比，AR-VLA优于 Pi-0-Fast 49.0% 和 Pi-0.5 51.0%。
分任务结果中，AR-VLA在 spoon 任务上达到 75.0%，高于 Pi-0-Fast 62.5% 和 Pi-0.5 58.3%。
在需要更精细操作的 carrot 任务上，AR-VLA达到 54.2%，明显优于 Pi-0-Fast 29.2% 和 Pi-0.5 33.3%。
论文还声称其在真实机器人操作、专家策略替换、轨迹平滑性、长时程任务上优于或不差于SOTA反应式VLA/扩散基线，但给定摘录未提供这些部分的完整定量表格数字。
定性上，作者声称AR-VLA生成的关节轨迹更平滑、更符合运动学一致性，并且在 PushT2、Stack3 等强调历史依赖的长时程任务中能成功，而 DP 和 FM 等基线会因缺乏时序上下文而失败。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.