Recoleta Item Note
OmniClone: Engineering a Robust, All-Rounder Whole-Body Humanoid Teleoperation System
OmniClone提出了一个面向类人机器人全身遥操作的工程化系统,并配套了细粒度诊断基准OmniBench。其目标是在低成本硬件和有限数据下,实现更稳健、更通用、可部署的全身运动跟踪与数据采集。
Summary
OmniClone提出了一个面向类人机器人全身遥操作的工程化系统,并配套了细粒度诊断基准OmniBench。其目标是在低成本硬件和有限数据下,实现更稳健、更通用、可部署的全身运动跟踪与数据采集。
Problem
- 现有类人全身遥操作系统通常只报告粗粒度汇总指标,掩盖了在下蹲、跳跃、低位操作等不同运动模式下的失败模式。
- 现有方案往往与特定硬件、操作者体型和通信设置强耦合,需要繁琐校准,难以稳定落地到真实场景。
- 这很重要,因为全身遥操作不仅用于实时远程控制,也是采集高质量示范数据、训练通用机器人/VLA策略的重要基础设施。
Approach
- 作者先构建OmniBench:一个按6类技能(如manipulation、walking、running、jumping等)和18个分层难度/动态类别评测的诊断基准,专门测试未见动作上的泛化。
- 核心控制策略是一个Transformer全身跟踪策略,通过teacher-student蒸馏训练,让模型从历史本体感觉和参考动作序列中输出关节控制。
- 作者用OmniBench反向指导训练数据配方:最终采用约60% manipulation + 40% dynamic maneuvers/stable locomotion的平衡数据组成,以避免模型只擅长单一技能。
- 在系统层面加入与操作者无关的retargeting,通过动态尺度校正减少不同人体身材和MoCap系统带来的几何误差;文中指出未校正时最大偏差约20 cm,会带来约20 mm MPJPE增加。
- 为应对真实部署中的抖动和延迟,系统使用基于队列的数据管理 + zero-order hold + UDP通信,实现约80 ms端到端延迟;同一策略还支持实时遥操作、生成动作回放和VLA控制输入,属于control-source-agnostic设计。
Results
- 论文宣称,相比可比方法,OmniClone通过数据配方和系统优化使MPJPE降低超过66%,同时所需计算资源少几个数量级;训练仅需约30小时动作数据、单张RTX 4090,总计约80 GPU小时(teacher约60小时,student约22小时)。
- 在OmniBench上,OmniClone在18个分层类别上整体优于GMT和Twist2。例如:Loco-Manip Low中MPJPE为51.3 mm,优于GMT的180.5 mm和Twist2的210.5 mm;Manip Medium中为20.4 mm,优于GMT的54.7 mm和Twist2的156.3 mm。
- 在动态运动上也显著更强:Run Medium中OmniClone达到100% SR / 42.0 mm MPJPE,对比GMT的100% / 120.8 mm、Twist2的100% / 176.9 mm;Jump Medium中为100% / 34.5 mm,对比GMT的90% / 105.3 mm、Twist2的85% / 177.2 mm。
- 在部分更困难场景中也保持高成功率,例如Walk Fast为100% SR / 63.5 mm,而OmniClone的MLP版本仅20% SR / 111.7 mm,说明Transformer骨干明显优于MLP。
- 真实系统可泛化到1.47 m–1.94 m的6名操作者,跨越47 cm身高差;文中称所有新手在5–7次练习内完成复合loco-manipulation任务。
- 作为示范数据引擎,基于OmniClone采集的数据训练出的VLA策略在真实任务上达到85.71%(Pick-and-Place)和80.00%(Squat to Pick-and-Place)成功率。
Link
Built with Recoleta
Run your own research radar
Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.