Recoleta Item Note

Mean-Flow based One-Step Vision-Language-Action

本文提出一种基于 MeanFlow 的单步 Vision-Language-Action 框架,把传统需要多步积分的 FlowMatching 动作生成改为直接预测“平均去噪方向”,从而显著降低机器人动作生成延迟。它面向真实机器人操作,重点解决高频连续动作生成在实时部署中的效率瓶颈。

vision-language-actionflow-matchingone-step-generationrobot-manipulationmean-flow

本文提出一种基于 MeanFlow 的单步 Vision-Language-Action 框架,把传统需要多步积分的 FlowMatching 动作生成改为直接预测“平均去噪方向”,从而显著降低机器人动作生成延迟。它面向真实机器人操作,重点解决高频连续动作生成在实时部署中的效率瓶颈。

  • 现有 FlowMatching-based VLA 虽然比扩散策略更高效,但仍依赖多步数值积分;步数一降,动作质量会明显变差。
  • 这会造成实时控制中的延迟—精度权衡:想快就会失真,想准就得多步推理,难以用于灵巧操作。
  • 对机器人而言,这很重要,因为高频、连续、低延迟的动作生成直接影响抓取、堆叠、分拣等真实世界任务的成功率和稳定性。
  • 核心方法是把学习目标从传统 FlowMatching 的瞬时向量场,改成 MeanFlow 的区间平均去噪向量场;直观上,就是不再一步步“沿路走”,而是直接预测从噪声动作到目标动作的平均方向。
  • 模型使用一个预训练且冻结的 VLM 主干融合多视角图像、语言指令和本体状态;动作专家基于 Transformer,条件生成未来动作块。
  • 训练时随机采样时间对 (r,t),同时学习局部瞬时信息和跨区间平均流;作者引入 flow-ratio 控制两类样本配比,以兼顾局部精度与全局稳定性。
  • 为缓解 MeanFlow 目标中的高方差与多模态动作数据带来的训练不稳,作者将普通 (L_2) 损失替换为自适应损失,在不做蒸馏、预训练或一致性正则的情况下提升收敛稳定性。
  • 推理时可直接单步生成:从高斯噪声动作出发,一次前向就得到整段连续动作;也支持少步生成作为折中。
  • 在真实机器人实验中,作者声称该方法的动作生成速度比 SmolVLA 快 8.7 倍,比 Diffusion Policy 快 83.9 倍
  • 数据与平台:3 个真实操作任务(pick-place、stacking、sorting),共 300 条轨迹;每个任务 100 个示范;机器人为 6-DoF + gripper 的 SO-101,输入含双目 RGB、语言和本体状态,动作空间 7 维
  • 超参数实验(pick-place,NFE=5)显示:flow-ratio=0.2 时成功率 84.5%,优于 0.580.5%,远高于 1.04.5%
  • 损失实验(flow-ratio=0.2, NFE=5)显示:自适应损失 gamma=0.5 成功率 86.0%,优于 gamma=0.379.5%,显著高于纯 (L_2)(gamma=1.0)的 9.5%
  • 论文摘要明确宣称其在单步与多步生成模式下都具有稳健表现,但给定摘录中未提供各真实任务相对 SmolVLA / Diffusion Policy 的完整任务成功率表格或更细粒度定量对比。
Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.