Recoleta Item Note

Contact-Grounded Policy: Dexterous Visuotactile Policy with Generative Contact Grounding

CGP面向多指灵巧手的接触丰富操作，核心是把“期望接触”先表示为未来机器人状态与触觉的联合轨迹，再映射成底层顺应控制器可执行的目标状态。它不是把触觉仅当作额外输入，而是把触觉与控制执行显式绑定，从而提升复杂接触任务的稳定性与成功率。

dexterous-manipulationvisuotactile-policydiffusion-policycontact-modelingcompliance-control

Summary

提出 Contact-Grounded Policy (CGP)：先预测未来的实际机器人状态和触觉反馈的联合轨迹，而不是直接回归动作。
用一个条件扩散模型在压缩后的触觉潜空间中生成未来轨迹；触觉先经带 KL 正则的 VAE 压缩，以降低高维触觉生成成本并稳定训练。
学习一个contact-consistency mapping，把预测得到的“状态+触觉”对映射为底层顺应控制器可执行的目标机器人状态，使控制器更可能复现预期接触。
该映射采用残差形式预测目标状态偏移，相比直接回归更稳健；测试时采用滚动时域重规划，逐步执行预测目标。

在 5 个接触丰富任务上，CGP均优于基线扩散策略（表 II）。
模拟 In-Hand Box Flipping（60 demos）：CGP 66.0%，高于 Visuotactile DP 58.0% 和 Visuomotor DP 53.2%。
模拟 Fragile Egg Grasping（100 demos）：CGP 74.8%，高于 Visuotactile DP 70.0% 和 Visuomotor DP 53.2%。
模拟 Dish Wiping（100 demos）：CGP 58.4%，高于 Visuotactile DP 43.6% 和 Visuomotor DP 42.4%。
真实 Jar Opening（45 demos）：CGP 93.3%，显著高于 Visuotactile DP 66.7% 和 Visuomotor DP 73.3%。
真实 In-Hand Box Flipping（90 demos）：CGP 80.0%，高于两种基线的 60.0%。另一个消融显示，在手部构型预测上，State+Tactile 的残差映射 MAE 为 5.94±0.20 ×10^-3 rad，优于仅状态 10.64±0.38、仅触觉 12.15±0.20 及绝对回归 8.80±0.24。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.