Recoleta Item Note

SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation

SeedPolicy解决了扩散策略在机器人操作中“看得越久反而越差”的长时序建模瓶颈。它通过一个可递归更新、带门控的时序状态模块，让更长观察窗口真正转化为更高成功率，并以远小于大规模VLA模型的参数量取得强结果。

robot-manipulationdiffusion-policylong-horizontemporal-attentionimitation-learning

Summary

提出SEGA (Self-Evolving Gated Attention)：维护一个固定大小、随时间演化的潜在状态，把长历史压缩进这个状态里，避免直接处理越来越长的原始帧序列。
SEGA包含两条流：一条用当前观测更新历史状态；另一条用历史状态反向增强当前观测，再交给扩散动作专家预测动作序列。
核心门控SEG直接利用交叉注意力分数作为“相关性信号”，决定本次应保留多少新信息、保留多少旧状态；简单说，就是“只在当前帧真的有用时才更新记忆”。
将SEGA集成到Diffusion Policy中得到SeedPolicy，实现近似递归式的长时程建模，以适中开销扩展时域长度。

在RoboTwin 2.0的50个操作任务上，作者报告SeedPolicy达到IL方法SOTA；按CNN与Transformer骨干平均，较原始DP在clean环境下提升36.8%，在randomized hard环境下提升169%（相对提升）。
表1中，Transformer骨干下：DP从33.10%（Easy）/ 1.44%（Hard）提升到SeedPolicy的40.08% / 4.28%，对应绝对提升6.98%与2.84%。
表1中，CNN骨干下：DP从28.04%（Easy）/ 0.64%（Hard）提升到SeedPolicy的42.76% / 1.54%，对应绝对提升14.72%与0.90%。
与RDT (1.2B参数)相比，SeedPolicy在参数量上小得多：33.36M（Transformer）或147.26M（CNN）；其中Transformer版约比RDT小36×，而在Easy设置下CNN版成功率42.76%高于RDT的34.50%。
作者称SeedPolicy在45/50个任务（Transformer）和44/50个任务（CNN）上优于或持平基线DP。
按任务长度分组，SeedPolicy对长任务优势更大：Transformer在短/中/长任务上分别领先**+2.9% / +6.4% / +16.0%，CNN分别领先+13.6% / +12.9% / +21.9%**，支持其“horizon scaling”主张。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.