Recoleta Item Note

Chain of World: World Model Thinking in Latent Motion

本文提出 CoWVLA，把世界模型的时间推理与潜在动作的紧凑运动表示结合起来，在潜在运动空间中“思考”机器人未来动态。核心目标是在不重建整段冗余视频背景的情况下，提升 VLA 的动态理解、动作学习效率与控制性能。

vision-language-actionworld-modellatent-actionrobot-manipulationvideo-vae

Summary

使用预训练视频 VAE 作为 latent motion extractor，将一个视频片段显式分解为 structure latent 和 motion latents，得到更紧凑、可解释的连续运动表示，而不是直接预测整帧像素。
在预训练阶段，模型输入语言指令和初始帧，并通过一个可学习的 motion query Q 去预测整段视频的 latent motion，同时预测终止帧，从而学习“从当前状态到未来状态”的潜在动态链条。
为避免偷看未来，Q 采用因果掩码，只能看见指令和初始帧，不能直接访问终止帧或未来观测。
在 co-fine-tuning 阶段，把稀疏 keyframes 与离散 action tokens 放进同一个自回归解码器中联合建模；同一个 Q 汇总整段时间范围内的潜在动态，并与多步动作预测对齐。
该机制本质上是：先学会用压缩的“运动代码”描述世界如何变化，再把这种动态先验接到真实动作生成上。

在 LIBERO 上，CoWVLA 平均成功率 0.956，高于 TLA 0.952、UniVLA 0.950、pi_0 0.942、villa-X 0.901、FlowVLA 0.881。分项上：SPATIAL 0.972、OBJECT 0.978、GOAL 0.946、LONG 0.928。
在 LIBERO-LONG 上，CoWVLA 达到 0.928，超过 TLA 0.920、UniVLA 0.914、GR00T N1 0.906，说明其长时序任务表现更强。
在 SimplerEnv-WidowX 上，CoWVLA 平均 0.760，优于 FlowVLA 0.740、UniVLA 0.687、villa-X 0.625、LAPA 0.573、CogACT 0.513。各任务为：Stack Block 0.625、Put Carrot 0.667、Put Spoon 0.792、Put Eggplant 0.958。
与训练前版本相比，在 SimplerEnv-WidowX 上从 0.729 提升到 0.760；其中 Stack Block 从 0.458 升到 0.625，Put Eggplant 从 0.917 升到 0.958，表明 co-fine-tuning 能把潜在动态先验转化为更强控制性能。
视频 VAE 重建指标显示其潜在表示具有较好保真度：预训练/微调后 PSNR 32.7/33.4，SSIM 0.923/0.934，LPIPS 0.122/0.123。
论文还给出效率层面的定性主张：相比未来帧重建式 world models，CoWVLA 避免重建冗余中间帧，因而具有“moderate computational efficiency”，但摘录中未提供更详细的训练/推理开销对比数字。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.