Recoleta Item Note

Critic in the Loop: A Tri-System VLA Framework for Robust Long-Horizon Manipulation

本文提出一种三系统视觉-语言-动作（VLA）框架，在高层VLM规划与低层VLA控制之间加入一个视觉Critic做动态调度，以提升长时程操作的实时性与鲁棒性。核心思想是只在需要时才唤醒慢速推理模块，从而在OOD干扰、停滞和失败恢复中取得更强表现。

vision-language-actionlong-horizon-manipulationhierarchical-controlanomaly-detectionood-generalizationrobot-policy

Summary

提出 Tri-System：System 2 是 VLM“Brain”负责生成语义子任务，System 1 是 flow-matching “Cerebellum”负责连续动作，System 3 是轻量视觉 Critic 负责监控执行并决定何时切换。
Critic把子任务评估统一成VQA文本生成：输出要么是进度值（将完成度离散为101个bin，对应区间[-1,0]），要么是异常 token <aci>，从而同时做进度跟踪和失败检测。
调度是事件驱动、异步的：正常时由VLA持续20Hz左右执行；仅在子任务完成、检测到事故、或长时间停滞时，才触发VLM重规划并清空旧动作缓存。
为打破无限重试，系统加入人类启发式规则：若Critic发现进度长期不再提升（如最大停滞阈值 N_stag=180 帧），则重置机器人状态并让Brain根据短时记忆重新规划。
还提出自动子任务标注流水线：先用末端执行器轨迹与夹爪状态做关键帧提议，再用VLM检索语义标签，减少人工逐段标注成本。

在真实机器人 Arrange the Tableware 任务中，Tri-System 在 Ordered / Scattered / Left cup / Fallen 四种场景分别达到 10/10、9/10、7/10、7/10；优于 Single-System 的 8/10、0/10、0/10、2/10 和 Dual-System 的 7/10、6/10、1/10、5/10。
在更复杂的 Tidy up the Desk 长时程任务中，Tri-System 各阶段成功数为 Open 9/10、Bottle1 8/10、Bottle2 5/10、Overall 4/10；对应 Single-System 为 7/10、5/10、2/10、0/10，Dual-System 为 6/10、5/10、1/10、0/10。
论文声称该方法在所有评测场景上达到state-of-the-art，尤其在OOD左侧杯子场景中，因训练数据没有该任务的左臂样本，Tri-System 仍取得 7/10，显著高于 Dual-System 1/10 和 Single-System 0/10。
系统运行层面，作者给出关键机制数字：控制/观测循环约 20 Hz；成功阈值示例为 τ_succ ≈ -0.041；停滞阈值为 N_stag=180；Critic 采用约 0.2B 参数的 Florence-2-base，以支持实时异步评估。
训练数据方面，每个任务收集 200 条遥操作轨迹；餐具整理任务额外加入 100 条“杯子被打翻后恢复”的轨迹。尽管有这些数据，作者特别强调左侧杯子使用左臂仍是未见分布测试。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.