Recoleta Item Note
Mean-Flow based One-Step Vision-Language-Action
本文提出一种基于 MeanFlow 的单步 Vision-Language-Action 框架,把传统需要多步积分的 FlowMatching 动作生成改为直接预测“平均去噪方向”,从而显著降低机器人动作生成延迟。它面向真实机器人操作,重点解决高频连续动作生成在实时部署中的效率瓶颈。
Summary
本文提出一种基于 MeanFlow 的单步 Vision-Language-Action 框架,把传统需要多步积分的 FlowMatching 动作生成改为直接预测“平均去噪方向”,从而显著降低机器人动作生成延迟。它面向真实机器人操作,重点解决高频连续动作生成在实时部署中的效率瓶颈。
Problem
- 现有 FlowMatching-based VLA 虽然比扩散策略更高效,但仍依赖多步数值积分;步数一降,动作质量会明显变差。
- 这会造成实时控制中的延迟—精度权衡:想快就会失真,想准就得多步推理,难以用于灵巧操作。
- 对机器人而言,这很重要,因为高频、连续、低延迟的动作生成直接影响抓取、堆叠、分拣等真实世界任务的成功率和稳定性。
Approach
- 核心方法是把学习目标从传统 FlowMatching 的瞬时向量场,改成 MeanFlow 的区间平均去噪向量场;直观上,就是不再一步步“沿路走”,而是直接预测从噪声动作到目标动作的平均方向。
- 模型使用一个预训练且冻结的 VLM 主干融合多视角图像、语言指令和本体状态;动作专家基于 Transformer,条件生成未来动作块。
- 训练时随机采样时间对 (r,t),同时学习局部瞬时信息和跨区间平均流;作者引入
flow-ratio控制两类样本配比,以兼顾局部精度与全局稳定性。 - 为缓解 MeanFlow 目标中的高方差与多模态动作数据带来的训练不稳,作者将普通 (L_2) 损失替换为自适应损失,在不做蒸馏、预训练或一致性正则的情况下提升收敛稳定性。
- 推理时可直接单步生成:从高斯噪声动作出发,一次前向就得到整段连续动作;也支持少步生成作为折中。
Results
- 在真实机器人实验中,作者声称该方法的动作生成速度比 SmolVLA 快 8.7 倍,比 Diffusion Policy 快 83.9 倍。
- 数据与平台:3 个真实操作任务(pick-place、stacking、sorting),共 300 条轨迹;每个任务 100 个示范;机器人为 6-DoF + gripper 的 SO-101,输入含双目 RGB、语言和本体状态,动作空间 7 维。
- 超参数实验(pick-place,NFE=5)显示:
flow-ratio=0.2时成功率 84.5%,优于0.5的 80.5%,远高于1.0的 4.5%。 - 损失实验(
flow-ratio=0.2, NFE=5)显示:自适应损失gamma=0.5成功率 86.0%,优于gamma=0.3的 79.5%,显著高于纯 (L_2)(gamma=1.0)的 9.5%。 - 论文摘要明确宣称其在单步与多步生成模式下都具有稳健表现,但给定摘录中未提供各真实任务相对 SmolVLA / Diffusion Policy 的完整任务成功率表格或更细粒度定量对比。
Link
Built with Recoleta
Run your own research radar
Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.