Recoleta Item Note

FutureVLA: Joint Visuomotor Prediction for Vision-Language-Action Model

FutureVLA面向机器人Vision-Language-Action模型中的“未来感知”问题，学习一种同时结合视觉约束与动作动力学的联合视动表征。核心思想是把视觉和电机控制信息先分开学，再通过门控交互重新结合，并把这种未来先验蒸馏到下游VLA中。

vision-language-actionworld-modelgeneralist-robot-policysim2realrobot-manipulation

Summary

提出两阶段框架 FutureVLA：先做联合视动预训练，再做下游VLA后训练对齐。
预训练时输入连续多帧视频片段，而非稀疏帧对；先用冻结的3D-VAE把视频压成时序token，保留动态信息同时减少冗余。
设计 Joint Visuomotor Gating (JVG)：把表征拆成视觉流和动作流。视觉流只负责保留初始场景信息；动作流只负责预测连续动作块，从而减少“视觉主导”。
动作流通过门控交叉注意力按需查询视觉流中的空间/几何约束，相当于“动作负责怎么动，视觉负责在哪些约束下动”，最终形成联合视动嵌入。
后训练时不改下游VLA推理结构，只用一个轻量adapter把VLA中间表征对齐到这些联合视动嵌入，让单帧输入的VLA也能内化未来动态先验；并展示可兼容OFT-style与GR00T-style动作头。

论文声称在 SimplerEnv 上平均提升 11.4%，在真实机器人上提升 21.7%（相对“无联合视动嵌入指导”的基线）。
在 Google robot / SimplerEnv / Visual Matching 设置下，FutureVLA-GT 平均 80.1，高于 GR00T-N1.5 35.2，绝对提升 44.9；FutureVLA-OT 平均 77.6，高于 OpenVLA-OFT 47.5，提升 30.1。其中 Put in Drawer 从 7.4 提升到 85.2（GT）。
在 WidowX / SimplerEnv 上，FutureVLA-GT 平均 71.9，高于 GR00T-N1.5 61.9、UniVLA 47.9、Villa-X 40.8；FutureVLA-OT 为 63.6。论文还在消融中报告，引入JVPM指导后，两种架构都比各自 wo/ JVPM 平均提升 9.4 个点（GT: 62.5→71.9，OT: 54.2→63.6）。
在 LIBERO 上，FutureVLA-GT/OT 平均分别为 98.3/98.2，优于 UniVLA 95.2、pi_0 94.2、GR00T-N1.5 93.9。在长时程 Long 子集上，FutureVLA-GT 96.0，高于 UniVLA 92.0、pi_0 85.2、WorldVLA 60.0。
在 真实Franka机器人 四项任务上，FutureVLA-GT 平均成功率 70.0%，比 pi_0 高 26.7%。摘要还强调其在真实操作中相对基线有 21.7% 的显著增益，尤其在持续控制/接触丰富任务（如白板擦除）更明显。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.