Recoleta Item Note

MetaWorld-X: Hierarchical World Modeling via VLM-Orchestrated Experts for Humanoid Loco-Manipulation

MetaWorld-X 是一个面向人形机器人行走-操作一体化（loco-manipulation）的分层世界模型框架。它把复杂控制拆成多个带有人类动作先验的专家策略，并用 VLM 监督的路由器按任务语义组合这些专家，从而提升自然性、稳定性和组合泛化。

humanoid-controlworld-modelmixture-of-expertsvision-language-modelsloco-manipulation

Summary

核心方法是“分而治之”：先训练一个 Specialized Expert Pool (SEP)，把站立、走路、跑步、坐下、搬运、伸手等基础技能分别学成独立专家，避免单一策略里不同技能互相打架。
每个专家都用 人类动作数据 + 模仿约束强化学习 训练：通过动作重定向把 MoCap/SMPL 运动映射到机器人，再用基于关节位置/速度误差的能量型奖励去逼近人类动作，从而让运动更自然、符合生物力学。
框架保留 world model / latent planning：把模仿对齐奖励接入世界模型的奖励头和值函数，在潜空间里用 MPPI/CEM 规划，提高样本效率和前瞻控制能力。
再训练一个 Intelligent Routing Mechanism (IRM)：输入当前观测和任务语义，输出各专家的混合权重，最终动作是各专家动作的加权和。
这个路由器由 VLM 监督蒸馏：先用任务级语义相关性做粗对齐，再用少样本演示做细化，使其从依赖 VLM 指导过渡到自主路由，并支持零样本/少样本组合泛化。

在 Humanoid-bench 的基础技能评测中，IRM 相比强基线在回报和收敛速度上更强：例如 Walk 上 Ours 1118.7±7.1，高于 TD-MPC2 644.2±162.3、DreamerV3 428.2±14.5；收敛步数仅 0.5M，优于 TD-MPC2 的 1.8M 和 DreamerV3 的 6.0M。
在 Run 上优势尤其大：Ours 2056.9±13.6，对比 TD-MPC2 66.1±4.7、DreamerV3 298.5±84.5；收敛步数 1.0M，优于 TD-MPC2 的 2.0M 与 DreamerV3 的 6.0M。
其他基础技能同样领先：Stand 815.9±0.3 vs TD-MPC2 749.8±63.1；Sit 862.2±2.1 vs 733.9±120.6；Carry 963.5±5.1 vs 438.0±72.9，且收敛通常在 0.5–0.6M，显著快于基线的 1.1–6.0M。
在 10 次独立试验的成功率上，Ours 在 Stand/Walk/Run/Carry 都达到 9/10，Sit 8/10；相比 TD-MPC2 仅 3/10、3/10、2/10、3/10、4/10，PPO 则多数为 0/10。
在复杂操作任务上，MetaWorld-X 也优于基线：Door 470.0±2.2 vs TD-MPC2 285.0±12.0，Basketball 250.0±11.9 vs 148.4±3.3，Push 70.0±2.1 vs -113.8±6.8，Truck 1500.0±15.6 vs 1213.2±1.1，Package -5200.0±47.2 vs -6788.5±552.7。
消融表明两个关键组件都重要：在 Door 任务上，Full Model 的 return 为 303.95、训练步数 12.64w；去掉 Router 后降为 296.57 / 20.36w；去掉 VLM 或 IL 则任务失败（其中 w/o IL return 193.61，但无法有效收敛/适配）。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.