Recoleta Item Note
Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learners with Reinforcement Learning
本文系统研究了大型预训练视觉-语言-动作(VLA)模型在持续强化学习中的表现,核心结论是:看似朴素的顺序微调(Sequential Fine-Tuning, Seq. FT)配合 LoRA 和 on-policy RL,往往已经足够稳定、可扩展,并且比更复杂的持续学习方法更强。它挑战了“顺序训练必然灾难性遗忘”的常识,对构建可持续自我改进的机器人基础模型很重要。
Summary
本文系统研究了大型预训练视觉-语言-动作(VLA)模型在持续强化学习中的表现,核心结论是:看似朴素的顺序微调(Sequential Fine-Tuning, Seq. FT)配合 LoRA 和 on-policy RL,往往已经足够稳定、可扩展,并且比更复杂的持续学习方法更强。它挑战了“顺序训练必然灾难性遗忘”的常识,对构建可持续自我改进的机器人基础模型很重要。
Problem
- 论文要解决的问题是:VLA 模型在任务持续到来时,能否一边学新任务、一边保住旧能力与零样本泛化,而不发生灾难性遗忘。
- 这很重要,因为真实机器人环境是开放且不断变化的,机器人基础模型若不能持续适应,就难以成为真正长期可用的 embodied agent。
- 传统持续学习通常认为直接顺序微调会严重遗忘,因此需要回放、正则化、参数隔离等复杂机制;作者质疑这一点在“大型预训练 VLA + RL 后训练”场景下是否仍然成立。
Approach
- 作者对 3 个不同 VLA 模型、5 个持续 RL 基准进行系统比较,评估 8 类方法:Seq. FT、多任务 oracle、EWC、Expert Replay、Dark Experience Replay、Dynamic Weight Expansion、SLCA、RETAIN。
- 基础训练配方很简单:冻结大部分预训练骨干,仅用 LoRA 做参数高效适配,并使用 on-policy 的 GRPO 进行 RL 后训练。
- 评估指标包括:训练任务平均成功率 AVG、遗忘程度 NBT、前向迁移 FWT,以及专门衡量保留预训练泛化能力的 ZS(zero-shot success)。
- 作者进一步做机制分析,主张性能来自三者协同:大规模预训练提供强初始表示,LoRA 限制更新幅度减少干扰,on-policy RL 让更新更稳定;去掉任一要素都会显著加剧遗忘。
Results
- 在 libero-spatial 上,Seq. FT 达到 AVG 81.2±0.4%、NBT 0.3±0.5、FWT 3.9±1.5、ZS 57.1±1.1%;相比 EWC 的 66.1% AVG、RETAIN 的 66.0% AVG 明显更好,接近 multitask oracle 的 85.8% AVG,且 ZS 甚至高于 oracle(57.1% vs 51.2%)。
- 在 libero-object 上,Seq. FT 达到 AVG 93.2±0.7%、NBT 1.0±0.7、FWT 7.1±0.8、ZS 25.4±0.2%;优于 EWC 82.6%、SLCA 84.1%、RETAIN 76.6%,接近 oracle 95.7%。Expert Replay 的 ZS 略高(26.7%),但 AVG 仍低于 Seq. FT(88.8% vs 93.2%)。
- 在 libero-long-horizon 上,Seq. FT 达到 AVG 89.8±0.9%、NBT -2.4±1.0、FWT 0.5±0.1、ZS 86.6±0.2%;与 oracle 90.5% AVG 几乎持平,并表现出负遗忘(旧任务反而提升)。
- 总体上,作者声称 Seq. FT 的遗忘非常小,NBT 在多个基准上都低于约 2% 且有时为负,与“顺序微调会严重灾难性遗忘”的经典结论相反。
- 与复杂 CRL 方法相比,作者认为它们往往引入稳定性约束却损害可塑性:例如 EWC、SLCA、RETAIN 在多个基准上 AVG 明显更低;DWE 虽几乎不忘(如 NBT 0.0),但前向迁移为 0.0,说明难以利用跨任务正迁移;回放法还依赖额外存储和旧数据。
- 文本还提到作者在环境扰动、不同模型/物理引擎、任务顺序变化下观察到类似趋势,但给定摘录中完整数值结果未全部提供;最强具体主张是:大型预训练 VLA + LoRA + on-policy RL 的组合,使简单顺序微调成为一种天然的持续学习器。
Link
Built with Recoleta
Run your own research radar
Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.