Recoleta Item Note

Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learners with Reinforcement Learning

本文系统研究了大型预训练视觉-语言-动作(VLA)模型在持续强化学习中的表现,核心结论是:看似朴素的顺序微调(Sequential Fine-Tuning, Seq. FT)配合 LoRA 和 on-policy RL,往往已经足够稳定、可扩展,并且比更复杂的持续学习方法更强。它挑战了“顺序训练必然灾难性遗忘”的常识,对构建可持续自我改进的机器人基础模型很重要。

vision-language-actioncontinual-reinforcement-learninglorarobot-foundation-modelon-policy-rl

本文系统研究了大型预训练视觉-语言-动作(VLA)模型在持续强化学习中的表现,核心结论是:看似朴素的顺序微调(Sequential Fine-Tuning, Seq. FT)配合 LoRA 和 on-policy RL,往往已经足够稳定、可扩展,并且比更复杂的持续学习方法更强。它挑战了“顺序训练必然灾难性遗忘”的常识,对构建可持续自我改进的机器人基础模型很重要。

  • 论文要解决的问题是:VLA 模型在任务持续到来时,能否一边学新任务、一边保住旧能力与零样本泛化,而不发生灾难性遗忘
  • 这很重要,因为真实机器人环境是开放且不断变化的,机器人基础模型若不能持续适应,就难以成为真正长期可用的 embodied agent。
  • 传统持续学习通常认为直接顺序微调会严重遗忘,因此需要回放、正则化、参数隔离等复杂机制;作者质疑这一点在“大型预训练 VLA + RL 后训练”场景下是否仍然成立。
  • 作者对 3 个不同 VLA 模型、5 个持续 RL 基准进行系统比较,评估 8 类方法:Seq. FT、多任务 oracle、EWC、Expert Replay、Dark Experience Replay、Dynamic Weight Expansion、SLCA、RETAIN。
  • 基础训练配方很简单:冻结大部分预训练骨干,仅用 LoRA 做参数高效适配,并使用 on-policy 的 GRPO 进行 RL 后训练
  • 评估指标包括:训练任务平均成功率 AVG、遗忘程度 NBT、前向迁移 FWT,以及专门衡量保留预训练泛化能力的 ZS(zero-shot success)
  • 作者进一步做机制分析,主张性能来自三者协同:大规模预训练提供强初始表示,LoRA 限制更新幅度减少干扰,on-policy RL 让更新更稳定;去掉任一要素都会显著加剧遗忘。
  • libero-spatial 上,Seq. FT 达到 AVG 81.2±0.4%NBT 0.3±0.5FWT 3.9±1.5ZS 57.1±1.1%;相比 EWC 的 66.1% AVG、RETAIN 的 66.0% AVG 明显更好,接近 multitask oracle 的 85.8% AVG,且 ZS 甚至高于 oracle(57.1% vs 51.2%)
  • libero-object 上,Seq. FT 达到 AVG 93.2±0.7%NBT 1.0±0.7FWT 7.1±0.8ZS 25.4±0.2%;优于 EWC 82.6%、SLCA 84.1%、RETAIN 76.6%,接近 oracle 95.7%。Expert Replay 的 ZS 略高(26.7%),但 AVG 仍低于 Seq. FT(88.8% vs 93.2%)。
  • libero-long-horizon 上,Seq. FT 达到 AVG 89.8±0.9%NBT -2.4±1.0FWT 0.5±0.1ZS 86.6±0.2%;与 oracle 90.5% AVG 几乎持平,并表现出负遗忘(旧任务反而提升)。
  • 总体上,作者声称 Seq. FT 的遗忘非常小,NBT 在多个基准上都低于约 2% 且有时为负,与“顺序微调会严重灾难性遗忘”的经典结论相反。
  • 与复杂 CRL 方法相比,作者认为它们往往引入稳定性约束却损害可塑性:例如 EWC、SLCA、RETAIN 在多个基准上 AVG 明显更低;DWE 虽几乎不忘(如 NBT 0.0),但前向迁移为 0.0,说明难以利用跨任务正迁移;回放法还依赖额外存储和旧数据。
  • 文本还提到作者在环境扰动、不同模型/物理引擎、任务顺序变化下观察到类似趋势,但给定摘录中完整数值结果未全部提供;最强具体主张是:大型预训练 VLA + LoRA + on-policy RL 的组合,使简单顺序微调成为一种天然的持续学习器
Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.