Recoleta Item Note
Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model
本文提出 CompACT,一种把每张图像压缩到仅 8 个离散 token 的紧凑 tokenizer,用于加速潜在世界模型中的规划。核心主张是:规划不需要高保真像素细节,只需保留与动作决策相关的语义与空间信息。
Summary
本文提出 CompACT,一种把每张图像压缩到仅 8 个离散 token 的紧凑 tokenizer,用于加速潜在世界模型中的规划。核心主张是:规划不需要高保真像素细节,只需保留与动作决策相关的语义与空间信息。
Problem
- 现有世界模型常把单帧编码成数百个 token,导致基于注意力的规划计算量随 token 数平方增长,难以实时控制。
- 许多生成式世界模型追求照片级重建,保留了纹理、光照等对规划并不关键的高频细节,造成不必要的表示冗余。
- 这很重要,因为若规划延迟过高,世界模型即使预测能力强,也难以用于真实机器人或导航系统的在线决策。
Approach
- 提出 CompACT:将每张图像编码为 16 或 8 个离散 token,其中 8-token 设定约为 128 bits/image(8 个 token × 16 bits)。
- 编码器不再端到端为重建训练,而是建立在冻结的 DINOv3 视觉编码器之上;用少量可学习 query 通过 cross-attention 从其特征中提取对象级语义和空间关系,再经离散量化得到紧凑 token。
- 解码器不直接从 8/16 个 token 重建像素,而是把它们作为条件,去生成预训练 VQGAN/MaskGIT 的高维 target token,再由目标解码器恢复图像;简单说,就是“紧凑 token 保留语义,生成式解码补全外观细节”。
- 在世界模型训练中,作者直接在这组超紧凑离散 token 上学习 动作条件下一步预测,并采用 masked generative modeling;规划时结合 MPC/CEM 在潜空间 rollout 搜索动作序列。
- 由于离散 token 可通过 MaskGIT 风格 unmasking 快速预测,避免连续潜变量常见的多步扩散去噪,因此进一步降低推理开销。
Results
- 在 RECON 导航规划中,使用 CompACT 的动作条件世界模型在规划精度上与使用 784 个连续 token 的模型相当,但规划延迟约快 40×。
- 作者声称其 8-token 模型优于先前使用 64-token 的 tokenizer,说明极端压缩在精心设计下不仅更快,还可能带来更好的规划表现。
- 论文指出 NWM 一类现有方法规划一次 episode 最高需 约 3 分钟(单张 RTX 6000 ADA GPU),而 CompACT 旨在把这类延迟降到更接近实时可用的水平。
- 在 RoboNet 动作条件视频预测中,CompACT 的潜变量可支持与使用 16× 更多 token 的先前 tokenizer 相当的动作回归性能,并保持较强动作一致性。
- 文段未给出更完整的表格数值(如 ATE/RPE、APE、IDM 具体绝对值),但最强定量结论是:8 token vs 784 token 达到相近规划性能,且规划速度提升约 40 倍。
Link
Built with Recoleta
Run your own research radar
Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.