Recoleta Item Note

FAR-Dex: Few-shot Data Augmentation and Adaptive Residual Policy Refinement for Dexterous Manipulation

FAR-Dex针对灵巧操作中“示教太少、控制太难、真实部署不稳”三个核心瓶颈，提出了一个由少样本数据扩增和自适应残差控制组成的分层框架。它面向机械臂与多指手协同控制，在仿真与真实世界都报告了较强的成功率与实时性。

dexterous-manipulationimitation-learningsim2realresidual-policydata-augmentation

Summary

FAR-Dex包含两部分：FAR-DexGen先把极少量示教分解成“运动段”和“技能段”，再在IsaacLab中通过改变物体初始位姿、结合运动规划与逆运动学，生成大量物理可行的新轨迹。
方法的核心思想可以简单理解为：手的精细接触动作尽量保留原示教，机械臂轨迹随物体位置变化而重算，这样既扩充了数据，又保住了接触细节。
训练阶段把真实示教与仿真生成数据合并，用DP3式基础策略学习动作；同时用consistency model蒸馏把原本多步采样的扩散/去噪推理压缩成单步推理，以降低时延。
在线执行时，FAR-DexRes再学习一个残差策略：利用多步轨迹片段与当前观测，通过交叉注意力生成逐维权重 (\sigma_t)，对基础动作做“该修多少就修多少”的自适应校正。
残差策略通过PPO暖启动训练，目标是在保持基础策略平滑性的同时，针对接触阶段和分布外状态进行更精细的误差补偿。

数据生成方面，在Insert Cylinder任务上，FAR-DexGen的轨迹生成时间为 10.3 ms/trajectory，相比 MimicGen 8.3 ms、DemoGen 9.1 ms 略慢，但仍接近同量级。
数据质量方面，按“用生成数据训练统一DP3后得到的成功率”作为代理指标，FAR-DexGen达到 87.9%，高于 MimicGen 68.3% 和 DemoGen 74.5%；分别提升 19.6% 和 13.4%。
仿真任务成功率方面，FAR-DexRes在四个任务上分别达到：Insert Cylinder 93%、Pinch Pen 83%、Grasp Handle 88%、Move Card 95%。
与最强对比方法之一 ResiP 相比，FAR-DexRes在四个任务上的成功率分别从 85%→93%、79%→83%、80%→88%、87%→95%，平均约提升 7 个百分点，与摘要中的主张一致。
与纯模仿学习基线相比，FAR-DexRes也显著更强，例如相对 DP3：83%→93%、77%→83%、80%→88%、53%→95%；其中Move Card提升最明显，为 +42 个百分点。
推理时延方面，FAR-DexRes每步仅 3.0/4.3/3.8/4.3 ms，显著低于 DP3 的 29.1/31.5/29.8/29.6 ms 与 ResiP 的 29.3/32.5/31.9/30.2 ms。摘要还声称真实世界任务成功率超过80%，但摘录中未给出更细的逐任务真实实验数字。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.