Recoleta Item Note

PlayWorld: Learning Robot World Models from Autonomous Play

PlayWorld提出一种从机器人自主“玩耍”数据中学习动作条件视频世界模型的框架，目标是更真实地预测接触丰富的操控动态。核心主张是：比起成功偏置的人类示教，自动自玩数据更适合训练可扩展、物理一致的机器人世界模型。

robot-world-modelautonomous-playvideo-diffusionpolicy-evaluationrobot-data-scaling

Summary

用一个VLM任务提议器根据当前场景图像自动生成多样化自然语言指令，再由预训练VLA执行策略去执行，从而在真实机器人上持续收集无监督自玩交互数据。
这种机制本质上是在让机器人“自己给自己出题并尝试完成”，通过指令扰动和不同初始物体状态，自然产生更丰富的成功与失败接触模式。
为支持长时间无人值守采集，系统加入了轻量安全过滤与场景重置机制，可连续运行长达8小时，包括夜间采集。
世界模型采用预训练的stable video diffusion动作条件视频骨干，联合预测3个相机视角，并在自玩数据上微调。
为了更好学习长尾交互，作者使用基于CLIP到成功轨迹距离的课程学习：先学接近成功的简单片段，再逐步加入更罕见、更难的探索性交互。

在交互中心基准上，Robot Play (6h) 相比 Human Demo (6h) 在多个接触失败模式上显著更好：例如missed grasp 的 LPIPS 0.080→0.066、SSIM 0.875→0.883；slide 的 LPIPS 0.090→0.077；slip 的 LPIPS 0.090→0.078；collision 的 LPIPS 0.086→0.074、SSIM 0.852→0.888。
将机器人自玩数据从 6h 扩展到 30h 后，性能继续提升：例如success 的 LPIPS 0.082→0.071；slide 的 LPIPS 0.077→0.073、SSIM 0.865→0.876；说明自玩数据缩放后仍能带来收益。
加入课程学习后进一步提升：Robot Play (Curriculum) 在 success 上达到 LPIPS 0.070 / SSIM 0.880，在 slide 上达到 LPIPS 0.071 / SSIM 0.890，在 collision 上达到 LPIPS 0.072 / SSIM 0.893，优于未加课程的 30h 自玩模型。
论文声称，基于PlayWorld训练的模型在策略评估与失败预测上，相比人类采集数据可带来最高40%改进。
论文还声称，利用该世界模型进行模型内强化学习后，真实机器人部署时策略成功率可提升65%（相对预训练策略）。
数据缩放方面，作者宣称PlayWorld的下游视觉精度在人类示教数据已饱和的5×规模下仍持续改进，强调其可扩展性与长尾交互覆盖优势。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.