Recoleta Item Note

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

SPR 是一种面向机器人操作的进度感知视觉-语言-动作框架，把语言任务分解为可验证的2D空间子目标，并在进度异常时触发“回退”恢复。它旨在在不增加失败数据或辅助模型的前提下，提高操作成功率、OOD鲁棒性和真实机器人恢复能力。

vision-language-actionrobot-manipulationprogress-monitoringfailure-recoveryood-robustness

Summary

SPR 将任务执行组织为闭环 See-Plan-Rewind：先预测当前剩余子任务及其2D坐标，再规划到下一个子目标的2D轨迹，最后在检测到异常时执行回退。
它把示范数据自动分解为一串空间子目标：抓取类任务用夹爪开合变化找子任务边界；其他任务用 Gemini-3 标注片段与语义描述。
为了获得子目标与轨迹监督，方法用 DINOv3 + SAM 自动定位夹爪，从示范中提取离散化的2D waypoint 和 1–5 个中间轨迹点。
模型自回归生成：深度 token、剩余子任务数、每个子任务的语义+2D坐标、到下一个子目标的2D轨迹、以及最终动作 token。
回退机制不需要额外恢复数据：作者把成功示范反向构造成“return to initial position”数据，并用状态记录器监控最近 4 步子任务计数与 8 步轨迹；若计数持续上升或轨迹长期不变，则触发固定时长回退（实证设为 N=3）。

在 LIBERO 上，SPR 平均成功率达到 90.6%，相比 MolmoAct 86.8% 提升 3.8 个百分点；分项上为 Spatial 92.4%, Object 93.0%, Goal 94.2%, Long 82.8%。
在联合训练的 one-policy-for-all 设置下，SPR（Ours*）达到 91.8%，相比单独训练版 90.6% 再提升 1.2 个百分点；其中 Long 达到 85.4%。
在 LIBERO-Plus OOD 基准上，SPR 取得 71.8% 平均成功率，且平均性能下降仅 18.8%，优于 OpenVLA-OFT 70.6% / ↓27.0% 和 UniVLA 57.7% / ↓37.5%，文中据此声称达到新的 SOTA 鲁棒性。
按扰动类型，SPR 在 LIBERO-Plus 上分别达到：Background 86.0% (↓4.6%)、Robot 47.7% (↓42.9%)、Language 78.5% (↓12.1%)、Layout 69.6% (↓21.0%)、Light 85.0% (↓5.6%)。
在真实机器人 3 个任务上，SPR 相比 MolmoAct 从 50%→70%（Pick up）、0%→30%（Tidy up）、0%→40%（Push-T），说明其恢复机制对长时序和连续接触任务更有效。
论文还声称该方法实现了无需额外训练数据或辅助模型的闭环纠错与更强泛化，但摘录中未给出更细的消融数值。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.