Recoleta Item Note
Interactive World Simulator for Robot Policy Training and Evaluation
本文提出 Interactive World Simulator(IWS),一种面向机器人策略训练与评估的交互式世界模型。它用中等规模真实机器人交互数据学习可动作条件的视频预测,并在单张消费级 GPU 上实现长时稳定交互。
world-modelrobot-policy-trainingpolicy-evaluationaction-conditioned-video-predictionsim2real
Summary
本文提出 Interactive World Simulator(IWS),一种面向机器人策略训练与评估的交互式世界模型。它用中等规模真实机器人交互数据学习可动作条件的视频预测,并在单张消费级 GPU 上实现长时稳定交互。
Problem
- 现有机器人世界模型往往太慢,常依赖重型扩散采样,难以支持实时交互与大规模数据生成。
- 现有方法还常在长时滚动预测中失稳,误差累积导致机器人姿态漂移、物体交互不一致,难用于可靠策略训练和评估。
- 这很重要,因为机器人模仿学习和策略迭代高度依赖大量数据与频繁评测,而真实机器人采集/评估昂贵、缓慢且难复现。
Approach
- 核心思路是把图像先压缩到2D 潜变量空间,再只在潜空间里做动作条件未来预测,最后再解码回像素,从而更快更稳。
- 方法分两阶段:先训练CNN 编码器 + consistency-model 解码器的自编码器,获得高保真重建;再冻结自编码器,训练一个动作条件 consistency latent dynamics model 预测下一帧潜变量。
- 动力学模型把过去若干帧潜变量和动作作为上下文,对“最后一帧的带噪潜变量”去噪,学习多模态未来;网络实现为带 3D conv、FiLM、时空注意力 的结构。
- 为了支持长时 rollout,推理时采用自回归滑动窗口,并在训练中给上下文注入小噪声,提高模型对“自己预测作为后续输入”这种误差传播的鲁棒性。
- 该世界模型可直接用于两类应用:在模拟器内遥操作收集示范数据训练 imitation policy,以及在模拟器中对策略做可复现评测。
Results
- 长时交互与速度:IWS 可在单张 RTX 4090 上以 15 FPS 稳定运行,支持超过 10 分钟的长时交互 rollout。
- 视频预测指标优于基线:在 7 个任务聚合、192 steps(19.2 秒) 的动作条件预测上,IWS 达到 MSE 0.005±0.005、LPIPS 0.051±0.019、FID 63.50±13.78、PSNR 25.82±2.72、SSIM 0.831±0.039、UIQI 0.960±0.019、FVD 243.20±103.58;均优于 DINO-WM、UVA、Dreamer4、Cosmos(如 FVD 基线分别为 1752.57、2213.29、1747.26、799.34)。
- 任务覆盖:实验涵盖 6 个真实任务 + 1 个模拟任务,包括刚体、可变形物体、关节物体、物体堆及多物体交互,平台为 ALOHA 双臂机器人。
- 数据效率与可获得性:真实世界每个任务约收集 600 episodes、每条 200 steps,单人约 6 小时/任务;模拟任务用脚本策略生成 10,000 episodes 随机交互数据。作者声称中等规模数据即可训练出有效交互世界模型。
- 用于策略训练:使用世界模型生成的数据训练 DP、ACT、π0、π0.5 等 imitation policies,在从 100% 模拟器数据到 100% 真实数据 的各种混合比例下,策略表现都与同等规模真实数据训练可比;但摘录中未提供具体成功率数字。
- 用于策略评估:作者报告在多个任务和训练 checkpoint 上,模拟器内评测与真实世界表现存在强相关,可作为 faithful surrogate;但摘录中未给出相关系数等定量数值。
Link
Built with Recoleta
Run your own research radar
Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.