Recoleta Item Note
AtomVLA: Scalable Post-Training for Robotic Manipulation via Predictive Latent World Models
AtomVLA提出一种面向机器人操作的两阶段后训练框架,用原子级子任务指令和潜在世界模型奖励来提升长时程任务的稳定性与泛化。它重点解决仅靠模仿学习时指令落地不足、误差累积严重、且在线RL代价过高的问题。
Summary
AtomVLA提出一种面向机器人操作的两阶段后训练框架,用原子级子任务指令和潜在世界模型奖励来提升长时程任务的稳定性与泛化。它重点解决仅靠模仿学习时指令落地不足、误差累积严重、且在线RL代价过高的问题。
Problem
- 现有VLA通常只用粗粒度高层指令做监督微调,缺少中间步骤引导,导致长时程多步操作中容易产生误差累积。
- 机器人在线RL在真实系统上成本高、风险大、难扩展,因此很难用交互式方式继续优化策略。
- 像素级生成世界模型常出现长序列预测误差和视觉幻觉,难以为离线策略优化提供稳定可靠的奖励。
Approach
- 采用两阶段训练:Stage I先用GPT-4o把高层任务分解成2-5个原子子任务,并把高层指令与子任务指令一起用于SFT,增强指令落地与阶段性引导。
- 主干使用Qwen3-VL-4B-Instruct作为VLM,配合cross-attention Diffusion Transformer动作头,直接生成动作chunk而不是单步动作。
- Stage II使用基于V-JEPA2的动作条件潜在世界模型:给定当前观测和候选动作chunk,预测未来潜在状态,并与当前子任务边界帧、最终目标帧的潜在表示做距离比较来打分。
- 奖励由三部分组成:子目标能量、最终目标能量、与专家动作的偏差约束;然后用离线GRPO在候选动作组内做相对优化,并加KL约束保持接近SFT参考策略。
- 核心机制可简单理解为:先把复杂任务拆成小步骤教会模型“现在该做什么”,再让世界模型在潜在空间里评估“这串动作会不会更接近当前子目标和最终目标”,据此离线强化更好的动作。
Results
- 在LIBERO上,AtomVLA达到97.0%平均成功率;分项为Spatial 96.4%、Object 99.6%、Goal 97.6%、Long 94.4%。对比:NORA-1.5为94.5%平均,π0为94.2%,CoT-VLA为83.9%。
- 在更难的LIBERO-PRO上,AtomVLA平均成功率为0.48(48%),优于π0的0.45、X-VLA的0.46、MolmoAct的0.41、NORA的0.39。
- 作者称后训练持续带来提升:相对SFT基线(LIBERO平均93.0%),仅用子目标奖励可到96.0%,仅用最终目标奖励可到96.1%,完整奖励可到97.0%,即整体提升约4.0%;在Long子集上从90.0%提升到94.4%,增幅4.4%。
- 子任务指令确实重要:在LIBERO-Long上,仅图像输入为80.4%;图像+高层任务指令为90.0%;再加入原子子任务指令后达到92.2%。
- 动作chunk大小消融显示4步最好:平均97.0%,优于8步和16步的96.6%以及32步的96.3%;Long子集上4步为94.4%,明显高于32步的91.2%。
- 真实世界Galaxea R1 Lite六项任务中,标准设置下AtomVLA平均66.7%,与π0的65.8%接近;但在泛化设置下AtomVLA达到47.5%,显著高于π0的29.2%,绝对提升18.3%。例如Fold T-shirt从5%提升到25%,Fold towel从20%到35%。
Link
Built with Recoleta
Run your own research radar
Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.