Recoleta Item Note

Hierarchical Latent Action Model

HiLAM 旨在从 无动作标注视频 中学习更长时程的潜在技能,而不只是在相邻帧之间恢复低层动作。它把已有潜在动作模型提取出的短期动作序列,再分块压缩成可变长度的高层技能,用于分层机器人策略预训练。

latent-action-modelhierarchical-policyskill-discoveryactionless-videorobot-learning

HiLAM 旨在从无动作标注视频中学习更长时程的潜在技能,而不只是在相邻帧之间恢复低层动作。它把已有潜在动作模型提取出的短期动作序列,再分块压缩成可变长度的高层技能,用于分层机器人策略预训练。

  • 现有 Latent Action Model(LAM)大多只建模短时帧转换,能抓住低层运动,但常忽略视频里更重要的长时程技能结构
  • 这很重要,因为机器人与世界模型训练需要大量数据,而带动作标签的数据昂贵且稀缺;无标签视频很多,但若只能提取短期运动,就浪费了其中的高层行为信息。
  • 以固定窗口、固定技能集合或仅靠语言来定义技能的方法,难以处理真实技能时长可变、执行速度不同、行为多样的问题。
  • 核心思路很简单:先用预训练的逆动力学模型(IDM)把无动作视频变成一串低层潜在动作,再让一个分层序列模型把这串动作自动切成若干段,每段对应一个高层潜在技能。
  • HiLAM 采用 H-Net 的 dynamic chunking:若相邻 token 特征差异大,就在该位置开新段;这样可自动发现技能边界,无需人工标注,也不要求固定技能长度。
  • 训练时做三件事:预测下一个潜在动作(latent next-token prediction)、用**预训练前向动力学模型(FDM)**根据预测动作重建未来帧以保持“动作性”、再加上 chunk ratio 正则避免退化分段。
  • 学到技能后,作者训练一个分层策略:高层策略根据当前观测和语言预测潜在技能,低层策略再根据观测和该技能预测低层动作;最后只微调低层策略去输出真实机器人动作。
  • 该设计复用已有 LAM 作为低层提取器,因此在计算上更适合处理长时程轨迹
  • LIBERO-Long 上做数据效率实验时,仅用 10% 专家演示微调,BAKU = 23% 成功率,而 HiLAM = 45%,几乎翻倍。
  • LIBERO-Long 上,用 50% 演示时,HiLAM = 84%,达到与 BAKU 用 100% 数据相当的水平;用 100% 演示时,HiLAM = 94%,显著高于 BAKU。
  • 论文声称在 LIBERO-Spatial / Object / Goal / Long 四个套件上都一致优于强基线 BAKU,但 excerpt 未给出这四个套件各自的完整数值表。
  • Table 1 的 LIBERO-Long 消融显示:最佳设置是人类视频预训练 + stage-2 latent skill + stage-0 latent action,成功率 0.94;对应 BAKU + human pretraining + z^0 latent action = 0.91,以及 HiLAM 无大规模预训练 = 0.67
  • 机器人视频预训练下,HiLAM 也有效:z^1 skill + z^0 action = 0.90z^2 skill + z^0 action = 0.90;说明方法并不依赖单一数据源。
  • 非分层的 BAKU 用 latent conditioning 也能提升(如 0.87 / 0.91),但仍落后于最佳 HiLAM 0.94,支持作者关于“高层技能 + 分层策略”更有效的主张。
Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.