Recoleta Item Note

Cross-Hand Latent Representation for Vision-Language-Action Models

本文提出 XL-VLA，通过一个跨不同灵巧手共享的潜在动作空间，把视觉-语言-动作模型从“按各手原始关节空间分别学”改为“先映射到统一动作语义再解码到具体手”。这解决了多手型数据难以复用的问题，并在真实世界多手、多任务灵巧操作中显著优于标准 VLA 基线。

vision-language-action dexterous-manipulationcross-embodimentlatent-action-spacerobot-data-scaling

Summary

提出 XL-VLA：在标准 VLA 架构中插入一个共享潜在动作空间，让不同灵巧手都把动作先编码成同一种 latent，再由各自解码器还原为对应关节命令。
潜在空间由一个多头 VAE 式自编码器学习：每种手有自己的 encoder/decoder，但它们共享同一个 latent 分布，因此策略网络只需预测手无关的 latent 动作。
该 latent 训练使用三类约束：重建损失保证单手可还原原关节姿态，retargeting 损失通过可微前向运动学对齐不同手的指尖几何/捏合关系，KL 正则让 latent 平滑可插值。
训练 latent 时不需要跨手配对轨迹或示教数据，而是从各手关节范围随机采样姿态，再利用跨手解码和 FK 几何一致性做自监督对齐。
在 VLA 训练阶段，冻结这些预训练好的 encoder/decoder，只微调主干去根据视觉、语言和历史 latent 动作预测下一个 latent chunk。

数据规模：作者采集了4 种灵巧手、10 个任务、2000 条示教、约 2M state-action pairs 的真实世界遥操作数据集；每个任务每种手 50 条示教。
与标准 pi0 基线相比，表 2 中 XL-VLA 在四种手上的平均成功率均明显提升：Ability 0.37→0.73，Inspire 0.27→0.68，Paxini 0.35→0.78，XHand 0.29→0.70。
表 2 的总体均值显示，XL-VLA 的跨手多任务成功率约为 0.72，而基线约为 0.32，即绝对提升 0.40；作者还按任务均值行报告基线约 0.55、XL-VLA 约 0.90，对应 +0.35，文中称为显著一致提升。
若看任务维度，多个高难灵巧任务提升很大，例如 PF 0.20→0.70、HB 0.40→0.95、RB 0.45→0.90、PoS 0.23→0.88、PC 0.55→0.90。
论文还声称 XL-VLA 具备零样本泛化到未见 hand-task 组合的能力，并在不同机器人系统（桌面 xArm 与 humanoid G1）联合训练时也有收益，但摘录中未给出对应完整数值表。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.