---
source: arxiv
url: http://arxiv.org/abs/2603.12260v1
published_at: '2026-03-12T17:59:39'
authors:
- Liang Heng
- Yihe Tang
- Jiajun Xu
- Henghui Bao
- Di Huang
- Yue Wang
topics:
- humanoid-teleoperation
- dexterous-manipulation
- imu-motion-tracking
- imitation-learning
- human-to-robot-transfer
relevance_score: 0.92
run_id: materialize-outputs
language_code: zh-CN
---

# HumDex:Humanoid Dexterous Manipulation Made Easy

## Summary
HumDex提出了一个便携式的人形全身灵巧操作遥操作系统，并结合人类数据预训练与机器人数据微调来降低高质量示教采集成本。核心目标是在保持高精度的同时摆脱视觉遮挡和固定基础设施限制，从而提升复杂全身操作任务的数据采集效率与策略泛化。

## Problem
- 人形机器人全身灵巧操作高度依赖高质量示教，但现有遥操作方案要么不便携，要么受遮挡影响严重，难以高效采集复杂任务数据。
- 视觉/VR方案要求手始终处于视野内，导致工具使用、双手协同、长时程任务等真实场景容易跟踪失败或抖动。
- 人类动作数据更容易采集，但人与人形机器人的形态差异大，直接用人类数据训练会造成执行不准和操作失败。

## Approach
- 使用**IMU-based**全身追踪替代依赖摄像头的方案，通过15个轻量追踪器进行无视线遮挡的全身动作捕捉，并结合pelvis-centric retargeting减少IMU全局漂移影响。
- 将身体与手部分开控制：身体沿用现有低层运动跟踪控制器，手部则用一个轻量MLP把5个指尖的3D位置直接回归到20-DoF机械手关节角，实现常数时间、无需手工调参的灵巧手重定向。
- 先用离线优化生成配对数据训练手部重定向网络，再在实时遥操作中直接预测手关节，获得更平滑自然的手部动作。
- 提出两阶段模仿学习：第一阶段在多样化人类示教上预训练以学习通用动作先验；第二阶段只用机器人遥操作数据微调，以适配机器人本体并弥合 embodiment gap。
- 对于人类数据中缺失的机器人本体感觉状态，使用前一时刻动作近似代替，从而无需复杂的人机动作空间对齐。

## Results
- 在4个双方都可执行的共同任务上，采集60段示教的平均时间从**59.8 min**降到**44.3 min**，比视觉基线提升约**26%**。
- 在共同任务上，遥操作采集成功率从基线的**74.6%**提升到**91.7%**；用这些数据训练出的策略平均成功率从**57.5%**提升到**80.0%**。
- 在高遮挡、高灵巧度的**Scan&Pack**任务上，视觉基线**0/60**次遥操作成功，HumDex达到**54/60**，即约**90%**成功率；对应策略成功率为**20/30**，而基线该任务不可行。
- 分任务看，策略成功率分别达到：**Hang Towel 19/30 vs 11/30**、**Open Door 22/30 vs 10/30**、**Place Basket 26/30 vs 22/30**、**Pick Bread 29/30 vs 26/30**（HumDex vs baseline）。
- 硬件层面，系统支持**10+小时**连续运行与**50+米**连接范围；其自制低成本方案价格可低于**$200**，单节点重量小于**20g**，连续续航超过**20小时**。
- 摘要还声称两阶段训练能显著提升对**新位置、新物体、新背景**的泛化，并且无需在这些设置下采集机器人数据；但在给定摘录中，除上述表格外未提供更完整的泛化数值表。

## Link
- [http://arxiv.org/abs/2603.12260v1](http://arxiv.org/abs/2603.12260v1)
