Recoleta Item Note

Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learners with Reinforcement Learning

本文系统研究了大型预训练视觉-语言-动作（VLA）模型在持续强化学习中的表现，核心结论是：看似朴素的顺序微调（Sequential Fine-Tuning, Seq. FT）配合 LoRA 和 on-policy RL，往往已经足够稳定、可扩展，并且比更复杂的持续学习方法更强。它挑战了“顺序训练必然灾难性遗忘”的常识，对构建可持续自我改进的机器人基础模型很重要。

Embodied AI

vision-language-actioncontinual-reinforcement-learninglorarobot-foundation-modelon-policy-rl

Open arXiv Source markdown

Summary

Problem

论文要解决的问题是：VLA 模型在任务持续到来时，能否一边学新任务、一边保住旧能力与零样本泛化，而不发生灾难性遗忘。
这很重要，因为真实机器人环境是开放且不断变化的，机器人基础模型若不能持续适应，就难以成为真正长期可用的 embodied agent。
传统持续学习通常认为直接顺序微调会严重遗忘，因此需要回放、正则化、参数隔离等复杂机制；作者质疑这一点在“大型预训练 VLA + RL 后训练”场景下是否仍然成立。

Approach

作者对 3 个不同 VLA 模型、5 个持续 RL 基准进行系统比较，评估 8 类方法：Seq. FT、多任务 oracle、EWC、Expert Replay、Dark Experience Replay、Dynamic Weight Expansion、SLCA、RETAIN。
基础训练配方很简单：冻结大部分预训练骨干，仅用 LoRA 做参数高效适配，并使用 on-policy 的 GRPO 进行 RL 后训练。
评估指标包括：训练任务平均成功率 AVG、遗忘程度 NBT、前向迁移 FWT，以及专门衡量保留预训练泛化能力的 ZS（zero-shot success）。
作者进一步做机制分析，主张性能来自三者协同：大规模预训练提供强初始表示，LoRA 限制更新幅度减少干扰，on-policy RL 让更新更稳定；去掉任一要素都会显著加剧遗忘。

Results

在 libero-spatial 上，Seq. FT 达到 AVG 81.2±0.4%、NBT 0.3±0.5、FWT 3.9±1.5、ZS 57.1±1.1%；相比 EWC 的 66.1% AVG、RETAIN 的 66.0% AVG 明显更好，接近 multitask oracle 的 85.8% AVG，且 ZS 甚至高于 oracle（57.1% vs 51.2%）。
在 libero-object 上，Seq. FT 达到 AVG 93.2±0.7%、NBT 1.0±0.7、FWT 7.1±0.8、ZS 25.4±0.2%；优于 EWC 82.6%、SLCA 84.1%、RETAIN 76.6%，接近 oracle 95.7%。Expert Replay 的 ZS 略高（26.7%），但 AVG 仍低于 Seq. FT（88.8% vs 93.2%）。
在 libero-long-horizon 上，Seq. FT 达到 AVG 89.8±0.9%、NBT -2.4±1.0、FWT 0.5±0.1、ZS 86.6±0.2%；与 oracle 90.5% AVG 几乎持平，并表现出负遗忘（旧任务反而提升）。
总体上，作者声称 Seq. FT 的遗忘非常小，NBT 在多个基准上都低于约 2% 且有时为负，与“顺序微调会严重灾难性遗忘”的经典结论相反。
与复杂 CRL 方法相比，作者认为它们往往引入稳定性约束却损害可塑性：例如 EWC、SLCA、RETAIN 在多个基准上 AVG 明显更低；DWE 虽几乎不忘（如 NBT 0.0），但前向迁移为 0.0，说明难以利用跨任务正迁移；回放法还依赖额外存储和旧数据。
文本还提到作者在环境扰动、不同模型/物理引擎、任务顺序变化下观察到类似趋势，但给定摘录中完整数值结果未全部提供；最强具体主张是：大型预训练 VLA + LoRA + on-policy RL 的组合，使简单顺序微调成为一种天然的持续学习器。

Link

http://arxiv.org/abs/2603.11653v1

Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.

View repo 5-minute quickstart