Recoleta Item Note
Critic in the Loop: A Tri-System VLA Framework for Robust Long-Horizon Manipulation
本文提出一种三系统视觉-语言-动作(VLA)框架,在高层VLM规划与低层VLA控制之间加入一个视觉Critic做动态调度,以提升长时程操作的实时性与鲁棒性。核心思想是只在需要时才唤醒慢速推理模块,从而在OOD干扰、停滞和失败恢复中取得更强表现。
vision-language-actionlong-horizon-manipulationhierarchical-controlanomaly-detectionood-generalizationrobot-policy
Summary
本文提出一种三系统视觉-语言-动作(VLA)框架,在高层VLM规划与低层VLA控制之间加入一个视觉Critic做动态调度,以提升长时程操作的实时性与鲁棒性。核心思想是只在需要时才唤醒慢速推理模块,从而在OOD干扰、停滞和失败恢复中取得更强表现。
Problem
- 现有分层VLA常把慢速但有语义理解的VLM与快速但语义较弱的VLA硬性串联,导致切换僵硬、计算浪费、对扰动反应慢。
- 长时程操作中,机器人容易出现停滞、抓错、掉落、无限重试等问题;若靠为这些失败专门收集数据,扩展性很差。
- 这很重要,因为真实世界机器人需要同时具备高层语义规划与低层实时闭环控制,尤其在复杂、开放、OOD场景下。
Approach
- 提出 Tri-System:System 2 是 VLM“Brain”负责生成语义子任务,System 1 是 flow-matching “Cerebellum”负责连续动作,System 3 是轻量视觉 Critic 负责监控执行并决定何时切换。
- Critic把子任务评估统一成VQA文本生成:输出要么是进度值(将完成度离散为101个bin,对应区间[-1,0]),要么是异常 token
<aci>,从而同时做进度跟踪和失败检测。 - 调度是事件驱动、异步的:正常时由VLA持续20Hz左右执行;仅在子任务完成、检测到事故、或长时间停滞时,才触发VLM重规划并清空旧动作缓存。
- 为打破无限重试,系统加入人类启发式规则:若Critic发现进度长期不再提升(如最大停滞阈值
N_stag=180帧),则重置机器人状态并让Brain根据短时记忆重新规划。 - 还提出自动子任务标注流水线:先用末端执行器轨迹与夹爪状态做关键帧提议,再用VLM检索语义标签,减少人工逐段标注成本。
Results
- 在真实机器人 Arrange the Tableware 任务中,Tri-System 在 Ordered / Scattered / Left cup / Fallen 四种场景分别达到 10/10、9/10、7/10、7/10;优于 Single-System 的 8/10、0/10、0/10、2/10 和 Dual-System 的 7/10、6/10、1/10、5/10。
- 在更复杂的 Tidy up the Desk 长时程任务中,Tri-System 各阶段成功数为 Open 9/10、Bottle1 8/10、Bottle2 5/10、Overall 4/10;对应 Single-System 为 7/10、5/10、2/10、0/10,Dual-System 为 6/10、5/10、1/10、0/10。
- 论文声称该方法在所有评测场景上达到state-of-the-art,尤其在OOD左侧杯子场景中,因训练数据没有该任务的左臂样本,Tri-System 仍取得 7/10,显著高于 Dual-System 1/10 和 Single-System 0/10。
- 系统运行层面,作者给出关键机制数字:控制/观测循环约 20 Hz;成功阈值示例为
τ_succ ≈ -0.041;停滞阈值为N_stag=180;Critic 采用约 0.2B 参数的 Florence-2-base,以支持实时异步评估。 - 训练数据方面,每个任务收集 200 条遥操作轨迹;餐具整理任务额外加入 100 条“杯子被打翻后恢复”的轨迹。尽管有这些数据,作者特别强调左侧杯子使用左臂仍是未见分布测试。
Link
Built with Recoleta
Run your own research radar
Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.