Recoleta Item Note

MWM: Mobile World Models for Action-Conditioned Consistent Prediction

MWM 是一个用于移动机器人导航的世界模型，重点解决“预测画面看起来合理，但与动作导致的真实轨迹不一致”的问题。它通过一致性后训练和面向推理的一致性蒸馏，让少步扩散推理仍能支持更可靠的规划。

world-modelmobile-robot-navigationdiffusion-modelmodel-predictive-controlconsistency-distillation

Summary

提出两阶段训练：Stage I 结构预训练先用 teacher forcing 学习场景结构、几何和外观；Stage II 的 ACC 后训练再让模型在自回归 rollout 中使用自己的预测作为上下文，专门减少误差累积。
ACC 的核心很简单：训练时不总喂真实上一帧，而是让模型“看自己生成的历史”，再用多帧 LPIPS 感知损失去拉近预测轨迹与真实观测轨迹。
为避免破坏第一阶段学到的高保真生成，后训练时冻结主干 CDiT，只更新注入动作/时间步信息的轻量 AdaLN/LoRA 层。
提出 ICSD (Inference-Consistent State Distillation)：把少步扩散蒸馏从“匹配输出分布”改成“保持动作条件一致性”，并通过一个与推理端点更一致的状态来缩小截断去噪带来的训练-推理差距。
规划阶段沿用基于 CEM 的 MPC，在世界模型 rollout 空间中搜索动作序列，并用终帧与目标图像的 LPIPS 相似度打分。

动作条件一致性（SCAND）：MWM (DDIM 5) 在所有 rollout 时长都优于 NWM。比如 16s DreamSim 0.337 vs 0.373 (NWM DDIM 25) vs 0.568 (NWM DDIM 5)；16s LPIPS 0.495 vs 0.569 vs 0.734。作者概括为 DreamSim 降低 20.4%。
视觉质量（SCAND FID）：MWM (DDIM 5) 在多个 horizon 上也优于更慢的 NWM (DDIM 25)，如 1s: 80.97 vs 96.68，8s: 85.80 vs 91.29，16s: 93.12 vs 93.63；相对 NWM 的总体主张是 FID 降低 17.5%。
推理效率：平均 rollout 时间 2.3s（MWM DDIM 5）vs 9.6s（NWM DDIM 25）vs 2.6s（NWM DDIM 5），即相对主基线至少 4× 加速，并把去噪步数从 25/250 级别压到 5 步。
导航性能（SCAND）：MWM 达到 ATE 1.14、RPE 0.302，优于 NWM 的 1.28 / 0.33，也优于 GNM、NoMaD 等；作者总结为 ATE 提升 10.9%、RPE 提升 8.5%。
真实机器人部署：论文声称相对基线实现 成功率相对提升 50%，以及 导航误差降低 32.1%。
最强具体结论：MWM 表明，少步扩散如果显式围绕“动作条件 rollout 一致性”来训练，而不只是保单帧分布逼真度，就能同时提升规划可靠性、视觉保真度和实时性。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.