Recoleta Item Note

MEM: Multi-Scale Embodied Memory for Vision Language Action Models

MEM 提出一种给机器人视觉-语言-动作模型加入多尺度记忆的方法：用视频记住最近几秒的细节，用语言压缩记住长达十几分钟的语义事件。它面向真实长时程操作任务，尤其是厨房整理、做饭等需要持续跟踪进度与应对遮挡/失败重试的场景。

Summary

MEM 提出一种给机器人视觉-语言-动作模型加入多尺度记忆的方法：用视频记住最近几秒的细节，用语言压缩记住长达十几分钟的语义事件。它面向真实长时程操作任务，尤其是厨房整理、做饭等需要持续跟踪进度与应对遮挡/失败重试的场景。

将策略拆成两层：高层策略根据当前观测、任务目标和已有语言记忆，输出下一步子任务指令并更新语言记忆；低层策略根据最近一段观测序列和子任务执行动作。
长期记忆用自然语言摘要表示：模型不保存全部历史，而是持续维护一个简短的“已发生什么且仍然重要”的语义摘要；训练标签由外部LLM根据子任务序列和成功/失败标记自动生成，并显式做压缩与遗忘。
短期记忆用高效视频编码器表示：在ViT中交替做空间注意力和因果时间注意力，把多帧视觉历史压缩进当前时刻表示，只把当前时刻token送入VLA主干，从而控制延迟。
视频编码器不增加新可学习参数，主要通过改注意力模式和时间位置编码实现，因此可直接继承预训练视觉语言模型权重。
该方法被集成到 (\pi_{0.6}) VLA 中：预训练时使用6帧输入（5个过去帧+当前帧，1秒步长），后训练/推理中可扩展到18帧、54秒的观测记忆；整体还能支持需要最长15分钟语义记忆的任务。

论文声称 MEM 让策略能够完成需要最长15分钟记忆的真实机器人任务，包括kitchen clean-up 和 grilled cheese sandwich，以及 recipe setup 等长时程操作。
在实现层面，MEM 支持的记忆尺度包括：短期视频记忆可扩展到18帧 / 54秒，长期语言记忆覆盖最多15分钟的任务过程。
实验设置上，长时程任务中 recipe setup 训练使用了42个食谱，并在5个未见食谱、未见厨房和未见物体上评估；每个策略/任务使用10次rollouts，报告均值±标准误。
论文明确宣称：与无记忆的 (\pi_{0.6}) 相比，MEM 在长时程任务上显著提高成功率，且在多种复杂操作任务上达到state-of-the-art performance；但给定摘录中未提供具体成功率/分数数值，无法逐项列出精确提升幅度。
消融结论：短期视频记忆和长期语言记忆都必不可少；去掉任一组件都会明显削弱长时程任务表现。作者还声称“朴素语言记忆”（直接拼接历史指令、不做压缩）明显弱于 MEM 的压缩式语言记忆，原因是训练-推理分布偏移更严重。
在较短任务上，MEM 还声称带来in-context adaptation：例如抓取失败后调整抓取高度、根据反馈改变开门方向等；摘录中未给出这部分的定量数字，但这是其核心能力主张之一。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.