Recoleta Item Note
Non-Markovian Long-Horizon Robot Manipulation via Keyframe Chaining
该论文提出 Keyframe-Chaining VLA,用稀疏但语义关键的历史帧替代密集短窗口历史,让机器人在长时程、非马尔可夫操作任务中记住真正重要的过去。核心思想是在执行过程中自动挑出“关键时刻”并把这些帧串起来供 VLA 策略检索。
vision-language-actionlong-horizon-manipulationnon-markovian-memorykeyframe-retrievalgeneralist-robot-policy
Summary
该论文提出 Keyframe-Chaining VLA,用稀疏但语义关键的历史帧替代密集短窗口历史,让机器人在长时程、非马尔可夫操作任务中记住真正重要的过去。核心思想是在执行过程中自动挑出“关键时刻”并把这些帧串起来供 VLA 策略检索。
Problem
- 现有 VLA 多依赖当前观测或短时密集历史,默认任务近似满足马尔可夫性;但很多长时程操作需要记住早先发生过的关键事件。
- 直接扩展上下文窗口会带来注意力计算开销,难以满足实时机器人控制。
- 现有检索、压缩或层级规划方法要么丢失精细时空信息,要么推理慢,仍难处理仅由特定过去状态决定当前动作的非马尔可夫依赖。
Approach
- 提出 Keyframe-Chaining VLA:先用独立的 Keyframe Selection Module (KSM) 从连续视觉流中在线选出少量语义关键帧,再把这些关键帧与当前观测一起输入 VLA 策略。
- KSM 分两阶段训练:先用 triplet loss 学到区分不同任务/阶段/时间邻域的视觉嵌入空间;再用任务调制的查询网络,根据任务和当前执行阶段生成查询,匹配是否到达下一个语义里程碑。
- 查询机制用 FiLM 调制 phase embedding,使“同一个阶段概念”在不同任务下具有不同语义;再通过 cross-attention 从滑动窗口视觉特征中得到匹配分数,超过阈值就缓存为关键帧。
- 为减少抖动和误触发,作者加入 greedy temporal smoothing:在验证窗口内持续更新候选关键帧,只有分数回落并稳定后才最终提交。
- 动作策略采用 GR00T-N1.5/flow-matching backbone,不改主干架构,只把历史关键帧作为交错视觉 token 和结构化提示注入,从而以较低开销获得全局时序感知。
Results
- 在作者新建的 4 个 ManiSkill 非马尔可夫任务上,方法平均成功率 92.0%,显著高于最强基线 57.0%,绝对提升 35.0 个百分点。
- 按任务看,Keyframe-Chaining VLA 分别达到:Spatial 70.0%, Temporal 98.0%, Identity 100.0%, Counting 100.0%。
- 与代表性基线相比:π0 平均仅 15.5%;Diffusion Policy 平均 15.5%;GR00T-N1.5 (No History) 平均 16.0%。
- 短时密集历史也不够:GR00T-N1.5 使用 short-term history 时,平均最好约 27.0%(N_h=3, I=1),远低于作者方法的 92.0%。
- 固定步长长时采样的最强配置平均 57.0%(GR00T-N1.5, N_h=3, I=40),仍明显落后于关键帧链式历史;说明“挑对历史帧”比“机械拉长历史”更有效。
- 文中还宣称在真实世界长时程部署上也显著优于基线,但给定摘录未提供对应的具体数值。
Link
Built with Recoleta
Run your own research radar
Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.