Recoleta Item Note

OmniGuide: Universal Guidance Fields for Enhancing Generalist Robot Policies

OmniGuide提出一种统一的推理时引导框架，用3D空间中的“吸引/排斥能量场”去修正通用VLA机器人的动作采样。它的目标是在不重新训练、也不增加机器人数据的前提下，让现有通用策略在复杂、拥挤和高精度任务上更可靠、更安全。

vision-language-actiontest-time-guidancegeneralist-robot-policycollision-avoidancesemantic-groundingrobot-manipulation

Summary

核心机制很简单：把外部指导信息都写成可微分的能量函数，在3D空间里形成“朝目标吸引、离障碍排斥”的场，然后把这个梯度反传到VLA生成的动作上，改变采样方向。
方法适用于diffusion/flow-matching类生成式机器人策略；在每个去噪步骤，先估计当前“干净动作”，再通过可微运动学/动力学模型把动作转成末端执行器的笛卡尔轨迹。
然后在轨迹上计算任务能量：如碰撞规避用基于SDF的排斥能量，语义指向用VLM定位出的3D目标点构造高斯吸引能量，人类示范用手部轨迹和机器人轨迹做单调匹配后构造吸引能量。
最终更新等于“原VLA的自然动作先验 + 引导梯度”；还可在初始噪声阶段做候选采样筛选，从而兼顾自然性、约束满足和多模态性。
该框架可组合多种异构引导源，且作者强调无需重训、无需新增机器人数据、实时计算梯度即可在动态环境中工作。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.