Recoleta Item Note

MetaWorld-X: Hierarchical World Modeling via VLM-Orchestrated Experts for Humanoid Loco-Manipulation

MetaWorld-X 是一个面向人形机器人行走-操作一体化(loco-manipulation)的分层世界模型框架。它把复杂控制拆成多个带有人类动作先验的专家策略,并用 VLM 监督的路由器按任务语义组合这些专家,从而提升自然性、稳定性和组合泛化。

humanoid-controlworld-modelmixture-of-expertsvision-language-modelsloco-manipulation

MetaWorld-X 是一个面向人形机器人行走-操作一体化(loco-manipulation)的分层世界模型框架。它把复杂控制拆成多个带有人类动作先验的专家策略,并用 VLM 监督的路由器按任务语义组合这些专家,从而提升自然性、稳定性和组合泛化。

  • 论文要解决的是:单一整体策略在高自由度人形机器人上同时学习行走和操作时,容易出现跨技能梯度干扰、动作模式冲突、抖动、跌倒和不自然运动。
  • 这很重要,因为人形机器人若想执行真实世界多阶段任务,必须同时保持平衡、移动和精细操作;仅优化任务回报常会牺牲动作自然性与稳定性。
  • 现有世界模型或 MoE 方法要么有长时滚动偏差和策略失配,要么缺少显式语义驱动,难以实现稳定且可组合的技能编排。
  • 核心方法是“分而治之”:先训练一个 Specialized Expert Pool (SEP),把站立、走路、跑步、坐下、搬运、伸手等基础技能分别学成独立专家,避免单一策略里不同技能互相打架。
  • 每个专家都用 人类动作数据 + 模仿约束强化学习 训练:通过动作重定向把 MoCap/SMPL 运动映射到机器人,再用基于关节位置/速度误差的能量型奖励去逼近人类动作,从而让运动更自然、符合生物力学。
  • 框架保留 world model / latent planning:把模仿对齐奖励接入世界模型的奖励头和值函数,在潜空间里用 MPPI/CEM 规划,提高样本效率和前瞻控制能力。
  • 再训练一个 Intelligent Routing Mechanism (IRM):输入当前观测和任务语义,输出各专家的混合权重,最终动作是各专家动作的加权和。
  • 这个路由器由 VLM 监督蒸馏:先用任务级语义相关性做粗对齐,再用少样本演示做细化,使其从依赖 VLM 指导过渡到自主路由,并支持零样本/少样本组合泛化。
  • Humanoid-bench 的基础技能评测中,IRM 相比强基线在回报和收敛速度上更强:例如 Walk 上 Ours 1118.7±7.1,高于 TD-MPC2 644.2±162.3DreamerV3 428.2±14.5;收敛步数仅 0.5M,优于 TD-MPC2 的 1.8M 和 DreamerV3 的 6.0M
  • Run 上优势尤其大:Ours 2056.9±13.6,对比 TD-MPC2 66.1±4.7DreamerV3 298.5±84.5;收敛步数 1.0M,优于 TD-MPC2 的 2.0M 与 DreamerV3 的 6.0M
  • 其他基础技能同样领先:Stand 815.9±0.3 vs TD-MPC2 749.8±63.1Sit 862.2±2.1 vs 733.9±120.6Carry 963.5±5.1 vs 438.0±72.9,且收敛通常在 0.5–0.6M,显著快于基线的 1.1–6.0M
  • 在 10 次独立试验的成功率上,Ours 在 Stand/Walk/Run/Carry 都达到 9/10Sit 8/10;相比 TD-MPC23/10、3/10、2/10、3/10、4/10,PPO 则多数为 0/10
  • 在复杂操作任务上,MetaWorld-X 也优于基线:Door 470.0±2.2 vs TD-MPC2 285.0±12.0Basketball 250.0±11.9 vs 148.4±3.3Push 70.0±2.1 vs -113.8±6.8Truck 1500.0±15.6 vs 1213.2±1.1Package -5200.0±47.2 vs -6788.5±552.7
  • 消融表明两个关键组件都重要:在 Door 任务上,Full Model 的 return 为 303.95、训练步数 12.64w;去掉 Router 后降为 296.57 / 20.36w;去掉 VLM 或 IL 则任务失败(其中 w/o IL return 193.61,但无法有效收敛/适配)。
Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.