Recoleta Item Note

KERV: Kinematic-Rectified Speculative Decoding for Embodied VLA Models

本文提出 KERV,把机器人运动学引入具身 VLA 的 speculative decoding,用轻量运动学预测替代部分重推理并动态调阈值,从而加速推理且尽量不损失任务成功率。核心价值是在机器人控制里同时利用 token 生成能力和 kinematic 短时预测能力。

vision-language-actionspeculative-decodingrobot-kinematicskalman-filterembodied-ai

本文提出 KERV,把机器人运动学引入具身 VLA 的 speculative decoding,用轻量运动学预测替代部分重推理并动态调阈值,从而加速推理且尽量不损失任务成功率。核心价值是在机器人控制里同时利用 token 生成能力和 kinematic 短时预测能力。

  • 论文解决的是 VLA 机器人策略推理太慢 的问题;虽然 speculative decoding 能加速,但在 VLA 中一旦草稿 token 出错,通常需要高成本 re-inference,导致加速效果受限。
  • 另一个关键问题是 接受阈值难设:阈值太松会累积动作误差、降低成功率,太严又拿不到速度收益;固定阈值无法适应不同任务和环境。
  • 这很重要,因为 VLA 是 embodied foundation model / vision-language-action 机器人的主流范式,但真实机器人控制需要更快、更稳定的闭环推理。
  • KERV 的核心思想很简单:当 speculative decoding 的 token 出错时,不再总是让大模型重算,而是用基于运动学的 Kalman Filter 直接补完当前动作片段剩余部分
  • 方法先把 VLA 输出 token 映射成 7-DoF 动作(位置、姿态、夹爪),并为每个 DoF 建动作缓存;KF 利用短动作上下文做一步预测。论文设置 Predict Length = 1、Action Context = 10,以控制运动学预测误差。
  • 为避免 KF 长期预测误差积累,补偿机制并非每步都开:每次补偿后,接下来 n=4 步关闭 KF,再回到常规 SD。
  • 第二个机制是 基于运动学波动 K_var 的动态接受阈值调整:不是只看 token ID 误差是否小于固定阈值,而是把误差映射到动作空间,依据运动学变化动态收紧或放宽阈值。文中多数任务使用 r_max=15, r_min=5
  • 系统实现上,大模型 draft/verify 放在 GPU,KF 补偿和阈值调整放在 CPU;因为这两部分 FLOPs 小但逻辑判断多,CPU+GPU 协同更合适。文中给出的计算量是:draft 0.07 GFLOPs/inf,verify 3.92 TFLOPs/inf;显存占用约 700MB vs 15GB
  • LIBERO 四个任务套件(Goal/Object/Spatial/Long)上,KERV 相比 naive VLA+SD 声称达到 1.48×–1.57× 端到端加速,且“without SR loss / nearly no Success Rate loss”。
  • 相比现有 SpecVLA,论文声称 KERV 取得 27%–37% 额外加速,同时几乎不损失成功率;摘要中直接给出这一主结论。
  • Goal:naive VLA+SD 为 76.2% SR, 1.00×, 159.2 steps;SpecVLA 最快约 1.23×(r=15)但 SR 降到 71.0%KERV 为 75.6% SR, 1.54×, 153.5 steps。相对 naive 提速 54%,相对 SpecVLA(r=15) 提速约 25%,SR 仅低 0.6pt 于 naive、但高于更快阈值下的 SpecVLA。
  • Object:naive 为 68.6% SR, 1.00×, 195.9 steps;SpecVLA 为 1.09×–1.10×,SR 在 58.0%–70.0%KERV 为 72.3% SR, 1.49×, 186.8 steps。相对 naive 提速 49%,且 SR 还提升 3.7pt
  • Spatial:naive 为 82.8% SR, 1.00×, 127.3 steps;SpecVLA 为 1.24×–1.26×,SR 在 77.8%–85.2%KERV 为 83.7% SR, 1.57×,是表中最高速度。节选未完整给出其 steps,但文中声称四个环境里 KERV 的平均推理步数最少。
  • 论文还给出一个负面对照:naive 把 SD 直接接到 VLA 上时,在四个环境里速度只有 0.86×–0.98×(相对 AR 的 1× 反而变慢),每步时延从 0.188–0.198s 升到 0.200–0.217s,说明如果不解决错误重推理和阈值问题,SD 在 VLA 上未必有效。
Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.