Recoleta Item Note

SkillVLA: Tackling Combinatorial Diversity in Dual-Arm Manipulation via Skill Reuse

SkillVLA研究双臂机器人中的“组合多样性”问题：许多双臂任务其实是左右手单臂技能的不同组合，但现有VLA通常把两臂动作纠缠在一起，难以重组已学技能。论文提出一种分层、按技能自适应的双臂VLA，使机器人能复用单臂技能并在需要时再启用双臂协作。

vision-language-actiondual-arm-manipulationskill-reusecombinatorial-generalizationrobot-foundation-model

Summary

在9个未见过的技能重组任务上，SkillVLA平均成功率达到 0.51，而 π0.5 = 0.0、π0-FAST = 0.0、TwinVLA = 0.04，显示其对未见左右技能配对具有明显组合泛化能力。
具体重组任务中，SkillVLA在 Cup×Cake 0.7、Cup×Stir 0.4、Cup×Smash 0.5、Box×Cake 0.6、Box×Stir 0.4、Box×Smash 0.5、Mug×Cake 0.6、Mug×Stir 0.3、Mug×Smash 0.6；而主要基线几乎全为 0.0。
在已学习技能测试上，SkillVLA平均 0.78，与 π0.5 的 0.77 相当，优于 π0-FAST 的 0.70 和 TwinVLA 的 0.67，说明其提升重组能力的同时没有明显损害已知技能表现。
论文还声称在三类高协作任务上可与基线匹敌，说明自适应通信仍能表达紧密双臂协调，但摘录中未给出具体数值。
在两个多阶段长程任务中，SkillVLA可根据阶段自动判断合作需求，并通过并行化可重组技能使执行时间降低 21%；摘录中未提供对应基线的完整表格数值。
论文进一步声称在有限示范的持续学习中，技能复用能显著帮助新技能获取，但摘录未提供定量结果。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.