Recoleta Item Note

Next Embedding Prediction Makes World Models Stronger

本文提出 NE-Dreamer，一种用于模型式强化学习的无解码器世界模型，通过预测“下一时刻的编码嵌入”而不是重建像素来学习状态表示。核心结论是：这种时间预测式表示学习在部分可观测、需要记忆与导航的任务上明显更强，同时在标准控制基准上不退化。

model-based-rlworld-modelrepresentation-learningtemporal-transformerpartial-observability

Summary

NE-Dreamer 保留 Dreamer 式 RSSM 世界模型和 imagination-based actor-critic 控制骨架，但移除了像素解码器。
它让一个因果时序 Transformer根据截至时间 (t) 的历史 latent/state/action，去预测下一步编码器嵌入 (\hat e_{t+1})。
预测目标是真实下一帧经过编码器得到的嵌入 (e_{t+1})，但对目标使用 stop-gradient；也就是说，模型学的是“从历史预测未来表示”。
训练时用 Barlow Twins 风格的冗余抑制对齐损失，让预测嵌入与目标嵌入在对应维度上对齐、在非对应维度上去冗余，从而避免塌缩。
简单说，方法的核心机制是：不再要求模型把当前图像重建出来，而是要求它从过去的信息猜对下一步会看到的高层表示。

在 DMLab Rooms 上，作者声称在相同算力与模型容量下（50M environment steps, 5 seeds, 12M parameters），NE-Dreamer 优于强基线，包括 DreamerV3、R2-Dreamer、DreamerPro；但摘录中未提供具体分数表或逐任务数值。
在机制消融中，移除因果 Transformer（w/o transformer）或移除next-step target shift（w/o shift）都会使性能“substantially reduces / collapses / nearly complete loss of gains”；这支持性能提升来自“预测式序列建模”，但摘录中没有给出量化降幅。
在 DeepMind Control Suite (DMC) 上，NE-Dreamer 在1M environment steps、5 seeds、12M parameters设置下，作者称其匹配或略优于 DreamerV3 及其他无解码器基线；摘录中同样没有具体任务均值或 aggregate score 数字。
表征诊断中，作者通过冻结 latent 后训练事后解码器，声称 NE-Dreamer 的 latent 能更稳定保留物体身份、空间布局和任务相关信息，而 Dreamer/R2-Dreamer 更容易出现时序不一致；这是定性证据，无定量指标。
总体最强的具体主张是：在50M steps 的 DMLab Rooms 记忆/导航任务上，NE-Dreamer 在同参数规模 12M、5 个随机种子下优于现有 decoder-based 与 decoder-free 世界模型；在1M steps 的 DMC 上则无性能回退。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.