Recoleta Item Note

RoboClaw: An Agentic Framework for Scalable Long-Horizon Robotic Tasks

RoboClaw 是一个面向长时程机器人操作的统一代理框架,把数据采集、策略学习和部署执行放进同一个 VLM 驱动闭环中。其关键思想是让机器人用成对的“执行-复位”动作自我重置,并在部署时由同一代理动态调度技能与恢复策略。

vision-language-actionlong-horizon-roboticsagentic-frameworkautonomous-data-collectionskill-orchestration

RoboClaw 是一个面向长时程机器人操作的统一代理框架,把数据采集、策略学习和部署执行放进同一个 VLM 驱动闭环中。其关键思想是让机器人用成对的“执行-复位”动作自我重置,并在部署时由同一代理动态调度技能与恢复策略。

  • 现有 VLA 机器人系统在长时程任务上容易失效,因为数据采集、训练和部署通常彼此割裂,导致任务语义和状态分布不一致。
  • 真实机器人数据采集严重依赖人工:示教、环境重置、故障监控、轨迹筛选和部署监督都很耗时,难以扩展。
  • 长链条多技能执行中,早期小错误会级联放大;缺少运行时监督和恢复机制会让多策略系统非常脆弱。
  • 用一个现成的视觉语言模型作为元控制器,结合视觉观测与结构化记忆,进行高层推理、子任务选择、工具调用和技能编排。
  • 设计三层结构:Policies 负责底层动作生成,Tools 提供启动/切换策略与环境查询接口,Skills 负责把工具组织成可复用过程。
  • 提出 Entangled Action Pairs (EAP):把一个正向操作策略和一个逆向恢复/复位策略配成一对,形成“做完再撤回”的自重置循环,从而持续在线采集数据。
  • 部署时沿用同一个代理闭环,持续检查子任务是否完成;若失败则重试、切换策略、调用恢复技能,必要时再请求人工介入。
  • 执行阶段产生的轨迹也回流到训练集,形成统一语义下的生命周期闭环学习。
  • 论文声明:在真实世界长时程任务上,相比基线方法,RoboClaw 的任务成功率提升 25%
  • 论文声明:在机器人全生命周期中,人工时间投入减少 53.7%
  • 在相同数据量下,纯人工数据采集基线需要约 2.16× 的人工时间;在 rollout 期间需要约 8.04× 的人工干预,而 RoboClaw 大部分过程可自主完成。
  • 逆向复位策略在 4 个单技能任务上的成功率分别为 36/50、38/50、43/50、39/50(Body Lotion、Primer、Lipstick、Tissue Wipe)。
  • 正向操作策略经过 5 轮迭代后,4 个任务成功率从第 1 轮的 21/50、23/50、2/50、11/50 提升到第 5 轮的 43/50、40/50、23/50、26/50,显示在线采集与迭代优化有效。
  • 图中还声称在 vanity table organization 长时程任务上,RoboClaw 明显优于端到端 VLA 基线以及“独立子任务成功率乘积”得到的期望成功率;结果基于 20 次试验,但摘录未给出完整基线数值。
Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.