Recoleta Item Note

Contact-Grounded Policy: Dexterous Visuotactile Policy with Generative Contact Grounding

CGP面向多指灵巧手的接触丰富操作,核心是把“期望接触”先表示为未来机器人状态与触觉的联合轨迹,再映射成底层顺应控制器可执行的目标状态。它不是把触觉仅当作额外输入,而是把触觉与控制执行显式绑定,从而提升复杂接触任务的稳定性与成功率。

dexterous-manipulationvisuotactile-policydiffusion-policycontact-modelingcompliance-control

CGP面向多指灵巧手的接触丰富操作,核心是把“期望接触”先表示为未来机器人状态与触觉的联合轨迹,再映射成底层顺应控制器可执行的目标状态。它不是把触觉仅当作额外输入,而是把触觉与控制执行显式绑定,从而提升复杂接触任务的稳定性与成功率。

  • 现有灵巧操作策略常只预测运动学轨迹,难以显式表示和维持不断变化的多点接触,因此容易打滑、过硬接触或执行不稳定。
  • 许多触觉方法虽然使用了触觉观测,但没有建模“预测到的接触”如何通过底层顺应/PD控制器真正落地执行。
  • 这很重要,因为多指手的接触结果高度依赖物体几何、摩擦变化和滑移;如果策略输出与控制器动力学不一致,真实操作成功率会明显下降。
  • 提出 Contact-Grounded Policy (CGP):先预测未来的实际机器人状态触觉反馈的联合轨迹,而不是直接回归动作。
  • 用一个条件扩散模型在压缩后的触觉潜空间中生成未来轨迹;触觉先经带 KL 正则的 VAE 压缩,以降低高维触觉生成成本并稳定训练。
  • 学习一个contact-consistency mapping,把预测得到的“状态+触觉”对映射为底层顺应控制器可执行的目标机器人状态,使控制器更可能复现预期接触。
  • 该映射采用残差形式预测目标状态偏移,相比直接回归更稳健;测试时采用滚动时域重规划,逐步执行预测目标。
  • 5 个接触丰富任务上,CGP均优于基线扩散策略(表 II)。
  • 模拟 In-Hand Box Flipping(60 demos):CGP 66.0%,高于 Visuotactile DP 58.0% 和 Visuomotor DP 53.2%
  • 模拟 Fragile Egg Grasping(100 demos):CGP 74.8%,高于 Visuotactile DP 70.0% 和 Visuomotor DP 53.2%
  • 模拟 Dish Wiping(100 demos):CGP 58.4%,高于 Visuotactile DP 43.6% 和 Visuomotor DP 42.4%
  • 真实 Jar Opening(45 demos):CGP 93.3%,显著高于 Visuotactile DP 66.7% 和 Visuomotor DP 73.3%
  • 真实 In-Hand Box Flipping(90 demos):CGP 80.0%,高于两种基线的 60.0%。另一个消融显示,在手部构型预测上,State+Tactile 的残差映射 MAE 为 5.94±0.20 ×10^-3 rad,优于仅状态 10.64±0.38、仅触觉 12.15±0.20 及绝对回归 8.80±0.24
Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.