Recoleta Item Note

Critic in the Loop: A Tri-System VLA Framework for Robust Long-Horizon Manipulation

本文提出一种三系统视觉-语言-动作(VLA)框架,在高层VLM规划与低层VLA控制之间加入一个视觉Critic做动态调度,以提升长时程操作的实时性与鲁棒性。核心思想是只在需要时才唤醒慢速推理模块,从而在OOD干扰、停滞和失败恢复中取得更强表现。

vision-language-actionlong-horizon-manipulationhierarchical-controlanomaly-detectionood-generalizationrobot-policy

本文提出一种三系统视觉-语言-动作(VLA)框架,在高层VLM规划与低层VLA控制之间加入一个视觉Critic做动态调度,以提升长时程操作的实时性与鲁棒性。核心思想是只在需要时才唤醒慢速推理模块,从而在OOD干扰、停滞和失败恢复中取得更强表现。

  • 现有分层VLA常把慢速但有语义理解的VLM快速但语义较弱的VLA硬性串联,导致切换僵硬、计算浪费、对扰动反应慢。
  • 长时程操作中,机器人容易出现停滞、抓错、掉落、无限重试等问题;若靠为这些失败专门收集数据,扩展性很差。
  • 这很重要,因为真实世界机器人需要同时具备高层语义规划低层实时闭环控制,尤其在复杂、开放、OOD场景下。
  • 提出 Tri-System:System 2 是 VLM“Brain”负责生成语义子任务,System 1 是 flow-matching “Cerebellum”负责连续动作,System 3 是轻量视觉 Critic 负责监控执行并决定何时切换。
  • Critic把子任务评估统一成VQA文本生成:输出要么是进度值(将完成度离散为101个bin,对应区间[-1,0]),要么是异常 token <aci>,从而同时做进度跟踪和失败检测。
  • 调度是事件驱动、异步的:正常时由VLA持续20Hz左右执行;仅在子任务完成、检测到事故、或长时间停滞时,才触发VLM重规划并清空旧动作缓存。
  • 为打破无限重试,系统加入人类启发式规则:若Critic发现进度长期不再提升(如最大停滞阈值 N_stag=180 帧),则重置机器人状态并让Brain根据短时记忆重新规划。
  • 还提出自动子任务标注流水线:先用末端执行器轨迹与夹爪状态做关键帧提议,再用VLM检索语义标签,减少人工逐段标注成本。
  • 在真实机器人 Arrange the Tableware 任务中,Tri-System 在 Ordered / Scattered / Left cup / Fallen 四种场景分别达到 10/10、9/10、7/10、7/10;优于 Single-System 的 8/10、0/10、0/10、2/10 和 Dual-System 的 7/10、6/10、1/10、5/10
  • 在更复杂的 Tidy up the Desk 长时程任务中,Tri-System 各阶段成功数为 Open 9/10、Bottle1 8/10、Bottle2 5/10、Overall 4/10;对应 Single-System 为 7/10、5/10、2/10、0/10,Dual-System 为 6/10、5/10、1/10、0/10
  • 论文声称该方法在所有评测场景上达到state-of-the-art,尤其在OOD左侧杯子场景中,因训练数据没有该任务的左臂样本,Tri-System 仍取得 7/10,显著高于 Dual-System 1/10 和 Single-System 0/10
  • 系统运行层面,作者给出关键机制数字:控制/观测循环约 20 Hz;成功阈值示例为 τ_succ ≈ -0.041;停滞阈值为 N_stag=180;Critic 采用约 0.2B 参数的 Florence-2-base,以支持实时异步评估。
  • 训练数据方面,每个任务收集 200 条遥操作轨迹;餐具整理任务额外加入 100 条“杯子被打翻后恢复”的轨迹。尽管有这些数据,作者特别强调左侧杯子使用左臂仍是未见分布测试。
Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.