Recoleta Item Note

PlayWorld: Learning Robot World Models from Autonomous Play

PlayWorld提出一种从机器人自主“玩耍”数据中学习动作条件视频世界模型的框架,目标是更真实地预测接触丰富的操控动态。核心主张是:比起成功偏置的人类示教,自动自玩数据更适合训练可扩展、物理一致的机器人世界模型。

robot-world-modelautonomous-playvideo-diffusionpolicy-evaluationrobot-data-scaling

PlayWorld提出一种从机器人自主“玩耍”数据中学习动作条件视频世界模型的框架,目标是更真实地预测接触丰富的操控动态。核心主张是:比起成功偏置的人类示教,自动自玩数据更适合训练可扩展、物理一致的机器人世界模型。

  • 现有机器人视频世界模型多依赖人类示教数据,数据分布集中在成功轨迹,缺少失败、碰撞、打滑、形变等关键接触事件。
  • 这会导致模型在闭环预测时出现物理幻觉,如物体重复、消失、非真实移动,从而削弱策略评估、规划和RL微调的可靠性。
  • 这个问题重要,因为接触丰富的操控任务正是现实机器人落地的难点;如果世界模型无法可靠模拟这些动态,就很难成为真正有用的数据驱动模拟器。
  • 用一个VLM任务提议器根据当前场景图像自动生成多样化自然语言指令,再由预训练VLA执行策略去执行,从而在真实机器人上持续收集无监督自玩交互数据。
  • 这种机制本质上是在让机器人“自己给自己出题并尝试完成”,通过指令扰动和不同初始物体状态,自然产生更丰富的成功与失败接触模式。
  • 为支持长时间无人值守采集,系统加入了轻量安全过滤与场景重置机制,可连续运行长达8小时,包括夜间采集。
  • 世界模型采用预训练的stable video diffusion动作条件视频骨干,联合预测3个相机视角,并在自玩数据上微调。
  • 为了更好学习长尾交互,作者使用基于CLIP到成功轨迹距离的课程学习:先学接近成功的简单片段,再逐步加入更罕见、更难的探索性交互。
  • 在交互中心基准上,Robot Play (6h) 相比 Human Demo (6h) 在多个接触失败模式上显著更好:例如missed grasp 的 LPIPS 0.080→0.066、SSIM 0.875→0.883slide 的 LPIPS 0.090→0.077slip 的 LPIPS 0.090→0.078collision 的 LPIPS 0.086→0.074、SSIM 0.852→0.888
  • 将机器人自玩数据从 6h 扩展到 30h 后,性能继续提升:例如success 的 LPIPS 0.082→0.071slide 的 LPIPS 0.077→0.073、SSIM 0.865→0.876;说明自玩数据缩放后仍能带来收益。
  • 加入课程学习后进一步提升:Robot Play (Curriculum)success 上达到 LPIPS 0.070 / SSIM 0.880,在 slide 上达到 LPIPS 0.071 / SSIM 0.890,在 collision 上达到 LPIPS 0.072 / SSIM 0.893,优于未加课程的 30h 自玩模型。
  • 论文声称,基于PlayWorld训练的模型在策略评估与失败预测上,相比人类采集数据可带来最高40%改进
  • 论文还声称,利用该世界模型进行模型内强化学习后,真实机器人部署时策略成功率可提升65%(相对预训练策略)。
  • 数据缩放方面,作者宣称PlayWorld的下游视觉精度在人类示教数据已饱和的5×规模下仍持续改进,强调其可扩展性与长尾交互覆盖优势。
Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.