Recoleta Item Note
DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation
DexHiL提出了一个面向灵巧操作视觉-语言-动作模型的人在回路后训练框架,把离线示教、在线人工接管和干预感知重加权训练整合到同一套臂手系统中。其目标是在高维、多接触的灵巧手任务上,比纯离线微调更高效地提升真实机器人成功率与鲁棒性。
Summary
DexHiL提出了一个面向灵巧操作视觉-语言-动作模型的人在回路后训练框架,把离线示教、在线人工接管和干预感知重加权训练整合到同一套臂手系统中。其目标是在高维、多接触的灵巧手任务上,比纯离线微调更高效地提升真实机器人成功率与鲁棒性。
Problem
- 现有VLA在通用操作上有潜力,但迁移到灵巧手下游任务时,高维手部控制、密集接触、协变量偏移使纯离线后训练很难稳定收敛。
- 传统HiL/DAgger式纠错大多只覆盖机械臂或平行夹爪,无法对机械臂与灵巧手进行统一、连续、细粒度接管,导致纠错数据质量和协调性不足。
- 这很重要,因为灵巧操作中的小误差会快速累积并进入OOD状态,直接影响真实机器人在复杂抓取、抽取等任务上的可靠部署。
Approach
- 提出集成式臂-手HiL遥操作系统:机械臂用ArUco立方体进行6D位姿映射,手部用手套关键点驱动学习式关节重定向,从而支持在线即时人工接管。
- 设计两阶段手部重定向:先学习四指稳定运动流形,再冻结四指并优化拇指残差与手指间几何约束,避免五指统一学习退化成“捏夹式”抓取。
- 采用异步多线程控制:策略20Hz自主执行,人工臂控30Hz、手控90Hz,在检测到即将失败时由人类接管并生成纠错轨迹。
- 在训练上使用干预感知重加权:把稀缺但高价值的人工纠错片段在损失中提高权重,目标将干预样本占比提升到0.5,以更快学习恢复与避错行为。
- 结合离线预热 + 在线迭代聚合的数据管线,并过滤为“最后一次干预到任务完成”的恢复片段,减少前序错误动作带来的分布冲突与策略振荡。
Results
- 在Tissue Extraction任务上,DexHiL第3轮达到95%成功率,优于DAgger*的80%和离线基线的75%。
- 在Plush Toy Grasping任务上,DexHiL第3轮达到65%成功率,而DAgger*仅20%,离线基线为35%。
- 摘要声明:相对标准offline-only finetuning基线,DexHiL在不同任务上的成功率平均提升25%。
- 引言还声明:经过3轮在线优化,相对相同数据量的离线训练基线,两项任务分别获得**20%和30%**成功率提升。
- 实验设置显示:初始使用60条离线轨迹做预热;之后每轮每任务新增10条轨迹,并与等数据预算的Offline-40/50/60基线比较;每个任务在真实机器人上进行20次独立试验。
- 论文还声称消融结果表明,干预感知重加权机制是突破样本效率瓶颈的关键驱动,但摘录中未提供更完整的消融数表。
Link
Built with Recoleta
Run your own research radar
Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.