Recoleta Item Note

$π$-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs

本文提出 π-StepNFT，一种面向流式 vision-language-action 模型的在线强化学习方法，用逐步、无 critic、无显式似然的方式来微调机器人策略。核心观点是：探索空间更宽时，监督必须更细，因此要用带噪 SDE 扩大探索，再用逐步排序信号稳定对齐。

vision-language-action online-rlflow-matchingembodied-controlood-generalization

Summary

本文提出 π-StepNFT，一种面向流式 vision-language-action 模型的在线强化学习方法，用逐步、无 critic、无显式似然的方式来微调机器人策略。核心观点是：探索空间更宽时，监督必须更细，因此要用带噪 SDE 扩大探索，再用逐步排序信号稳定对齐。

用 SDE 采样 代替纯 ODE 进行训练时动作生成，向去噪过程注入结构化噪声，主动扩大策略可探索的行为空间。
把监督目标从最终去噪结果 x0 改为相邻一步转移 x_t -> x_t-，也就是逐步监督下一小步，而不是只看终点；这样更局部、方差更低。
不训练额外 value/critic 网络，也不计算显式动作 likelihood；只利用 SDE 单步转移的高斯形式，对观测到的下一步状态做误差比较。
构造围绕旧策略的两个镜像分支（正/负扰动），再用 logistic contrastive ranking loss：成功轨迹推动“正分支比负分支更能解释该转移”，失败轨迹则反过来，实现 push-pull 更新。
每个优化步只需单次前向传播，并通过 trust-region 式镜像扰动与 EMA rollout policy 保持更新稳定。

在 LIBERO 上，论文声称 π-StepNFT 相比 SFT 提升 32.9%，并强调其能释放 few-shot 设置下流式 VLA 的潜力。
在 ManiSkill 的视觉多样化 OOD 场景中，方法相对 critic/value-based baseline 提升 11.1%，论文将其归因于避免了 critic 对多模态特征的过拟合。
论文还声称该方法在 few-shot robustness 上具有竞争力，但给定摘录中未提供更细的任务级数值、数据集拆分或与每个具体基线的完整表格。
方法层面的强结论包括：无需辅助 value 网络、无需显式 likelihood、且每次优化仅需一次前向传播，目标是更可扩展地服务复杂真实机器人应用。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.