Recoleta Item Note

Mean-Flow based One-Step Vision-Language-Action

本文提出一种基于 MeanFlow 的单步 Vision-Language-Action 框架，把传统需要多步积分的 FlowMatching 动作生成改为直接预测“平均去噪方向”，从而显著降低机器人动作生成延迟。它面向真实机器人操作，重点解决高频连续动作生成在实时部署中的效率瓶颈。

vision-language-actionflow-matchingone-step-generationrobot-manipulationmean-flow

Summary

核心方法是把学习目标从传统 FlowMatching 的瞬时向量场，改成 MeanFlow 的区间平均去噪向量场；直观上，就是不再一步步“沿路走”，而是直接预测从噪声动作到目标动作的平均方向。
模型使用一个预训练且冻结的 VLM 主干融合多视角图像、语言指令和本体状态；动作专家基于 Transformer，条件生成未来动作块。
训练时随机采样时间对 (r,t)，同时学习局部瞬时信息和跨区间平均流；作者引入 flow-ratio 控制两类样本配比，以兼顾局部精度与全局稳定性。
为缓解 MeanFlow 目标中的高方差与多模态动作数据带来的训练不稳，作者将普通 (L_2) 损失替换为自适应损失，在不做蒸馏、预训练或一致性正则的情况下提升收敛稳定性。
推理时可直接单步生成：从高斯噪声动作出发，一次前向就得到整段连续动作；也支持少步生成作为折中。

在真实机器人实验中，作者声称该方法的动作生成速度比 SmolVLA 快 8.7 倍，比 Diffusion Policy 快 83.9 倍。
数据与平台：3 个真实操作任务（pick-place、stacking、sorting），共 300 条轨迹；每个任务 100 个示范；机器人为 6-DoF + gripper 的 SO-101，输入含双目 RGB、语言和本体状态，动作空间 7 维。
超参数实验（pick-place，NFE=5）显示：flow-ratio=0.2 时成功率 84.5%，优于 0.5 的 80.5%，远高于 1.0 的 4.5%。
损失实验（flow-ratio=0.2, NFE=5）显示：自适应损失 gamma=0.5 成功率 86.0%，优于 gamma=0.3 的 79.5%，显著高于纯 (L_2)（gamma=1.0）的 9.5%。
论文摘要明确宣称其在单步与多步生成模式下都具有稳健表现，但给定摘录中未提供各真实任务相对 SmolVLA / Diffusion Policy 的完整任务成功率表格或更细粒度定量对比。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.