Recoleta Item Note
MEM: Multi-Scale Embodied Memory for Vision Language Action Models
MEM 提出一种给机器人视觉-语言-动作模型加入 多尺度记忆 的方法:用视频记住最近几秒的细节,用语言压缩记住长达十几分钟的语义事件。它面向真实长时程操作任务,尤其是厨房整理、做饭等需要持续跟踪进度与应对遮挡/失败重试的场景。
vision-language-actionrobot-memorylong-horizon-controlembodied-foundation-modeldexterous-manipulation
Summary
MEM 提出一种给机器人视觉-语言-动作模型加入多尺度记忆的方法:用视频记住最近几秒的细节,用语言压缩记住长达十几分钟的语义事件。它面向真实长时程操作任务,尤其是厨房整理、做饭等需要持续跟踪进度与应对遮挡/失败重试的场景。
Problem
- 现有端到端机器人策略通常只看当前观测,或直接拼接少量过去观测;这对长时程、多阶段任务不够,因为计算/延迟会迅速失控。
- 机器人需要两类不同记忆:短期细粒度记忆用于遮挡恢复、动态估计、重抓取;长期语义记忆用于记住任务进度,如哪些步骤已完成、哪些柜门还没关。
- 如果只用单一记忆形式(仅图像、仅语言、仅关键帧等),往往会在空间精度、时间覆盖范围或推理效率之间做出不理想折中,这会限制真实机器人在复杂任务中的表现。
Approach
- 将策略拆成两层:高层策略根据当前观测、任务目标和已有语言记忆,输出下一步子任务指令并更新语言记忆;低层策略根据最近一段观测序列和子任务执行动作。
- 长期记忆用自然语言摘要表示:模型不保存全部历史,而是持续维护一个简短的“已发生什么且仍然重要”的语义摘要;训练标签由外部LLM根据子任务序列和成功/失败标记自动生成,并显式做压缩与遗忘。
- 短期记忆用高效视频编码器表示:在ViT中交替做空间注意力和因果时间注意力,把多帧视觉历史压缩进当前时刻表示,只把当前时刻token送入VLA主干,从而控制延迟。
- 视频编码器不增加新可学习参数,主要通过改注意力模式和时间位置编码实现,因此可直接继承预训练视觉语言模型权重。
- 该方法被集成到 (\pi_{0.6}) VLA 中:预训练时使用6帧输入(5个过去帧+当前帧,1秒步长),后训练/推理中可扩展到18帧、54秒的观测记忆;整体还能支持需要最长15分钟语义记忆的任务。
Results
- 论文声称 MEM 让策略能够完成需要最长15分钟记忆的真实机器人任务,包括kitchen clean-up 和 grilled cheese sandwich,以及 recipe setup 等长时程操作。
- 在实现层面,MEM 支持的记忆尺度包括:短期视频记忆可扩展到18帧 / 54秒,长期语言记忆覆盖最多15分钟的任务过程。
- 实验设置上,长时程任务中 recipe setup 训练使用了42个食谱,并在5个未见食谱、未见厨房和未见物体上评估;每个策略/任务使用10次rollouts,报告均值±标准误。
- 论文明确宣称:与无记忆的 (\pi_{0.6}) 相比,MEM 在长时程任务上显著提高成功率,且在多种复杂操作任务上达到state-of-the-art performance;但给定摘录中未提供具体成功率/分数数值,无法逐项列出精确提升幅度。
- 消融结论:短期视频记忆和长期语言记忆都必不可少;去掉任一组件都会明显削弱长时程任务表现。作者还声称“朴素语言记忆”(直接拼接历史指令、不做压缩)明显弱于 MEM 的压缩式语言记忆,原因是训练-推理分布偏移更严重。
- 在较短任务上,MEM 还声称带来in-context adaptation:例如抓取失败后调整抓取高度、根据反馈改变开门方向等;摘录中未给出这部分的定量数字,但这是其核心能力主张之一。
Link
Built with Recoleta
Run your own research radar
Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.