Recoleta Item Note

OmniGuide: Universal Guidance Fields for Enhancing Generalist Robot Policies

OmniGuide提出一种统一的推理时引导框架,用3D空间中的“吸引/排斥能量场”去修正通用VLA机器人的动作采样。它的目标是在不重新训练、也不增加机器人数据的前提下,让现有通用策略在复杂、拥挤和高精度任务上更可靠、更安全。

vision-language-actiontest-time-guidancegeneralist-robot-policycollision-avoidancesemantic-groundingrobot-manipulation

OmniGuide提出一种统一的推理时引导框架,用3D空间中的“吸引/排斥能量场”去修正通用VLA机器人的动作采样。它的目标是在不重新训练、也不增加机器人数据的前提下,让现有通用策略在复杂、拥挤和高精度任务上更可靠、更安全。

  • 现有VLA通用机器人策略虽然覆盖任务广,但在复杂空间理解、拥挤场景操作、精细操控、碰撞规避上常常失效,属于“会很多但都不够精”。
  • 常见补救办法依赖额外高质量机器人数据和后训练/微调,成本高且难扩展,还可能破坏原有泛化能力。
  • 不同外部能力来源(3D几何、VLM语义推理、人类演示)很强,但缺少一种统一方式在测试时把它们转成可直接指导VLA动作生成的信号。
  • 核心机制很简单:把外部指导信息都写成可微分的能量函数,在3D空间里形成“朝目标吸引、离障碍排斥”的场,然后把这个梯度反传到VLA生成的动作上,改变采样方向。
  • 方法适用于diffusion/flow-matching类生成式机器人策略;在每个去噪步骤,先估计当前“干净动作”,再通过可微运动学/动力学模型把动作转成末端执行器的笛卡尔轨迹。
  • 然后在轨迹上计算任务能量:如碰撞规避用基于SDF的排斥能量,语义指向用VLM定位出的3D目标点构造高斯吸引能量,人类示范用手部轨迹和机器人轨迹做单调匹配后构造吸引能量。
  • 最终更新等于“原VLA的自然动作先验 + 引导梯度”;还可在初始噪声阶段做候选采样筛选,从而兼顾自然性、约束满足和多模态性。
  • 该框架可组合多种异构引导源,且作者强调无需重训、无需新增机器人数据、实时计算梯度即可在动态环境中工作。
  • 摘要中报告:OmniGuide在仿真和真实环境中、跨多种引导源和两类SOTA通用策略(如 π0.5、GR00T N1.6)都带来显著提升。
  • 量化结果(摘要明确给出):成功率从24.2%提升到92.4%
  • 量化结果(摘要明确给出):避碰/安全率从7.0%提升到93.5%
  • 作者声称这些提升是在不需要重训练不需要额外机器人数据、且没有显著执行延迟的条件下获得的。
  • 论文还声称:其统一框架能够达到或超过以往专门为某一种指导源设计的方法,但给定摘录里未提供更细的任务级表格、数据集拆分或逐基线数值
Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.