Trend brief · 2026-03-03

世界模型加速转向结构化状态，机器人VLA同步迈向可部署与可修复

本期的共同主题是：世界模型不再只追求“生成得像”，而是更重视记忆、动态和部署可用性。机器人与仿真两条线正在靠近，目标都是更稳定地理解世界变化，并把这种能力接到真实控制上。趋势一：机器人控制开始重视时序世界理解，而不只是动作拟合CoWVLA把世界模型的时间推理与潜在动作表示结合起来，避免在训练中浪费大量容量去重建静态背景。它在LIBERO上平均成功率达到0.

6 tracked topics

Embodied AI

world-models robotics vla edge-deployment multimodal-agents multi-agent

Source markdown

Overview

Clusters

机器人智能体从“会看会做”走向“会部署、会修复”

机器人方向的主线很清楚：一类工作在提升VLA的时序世界理解，另一类工作在把VLA真正压到边缘设备上，还有工作尝试让多模态大模型直接改写控制器代码。CoWVLA用潜在运动替代整帧预测，重点解决长时序动态建模的效率问题；LiteVLA-Edge强调量化后本地闭环；AOR则把“失败后可自修复”推进到低层控制代码。三者共同指向更可部署、更可迭代的机器人系统。

Representative sources

Chain of World: World Model Thinking in Latent Motion — Fuxiang Yang; Donglin Di; Lulu Tang; Xuancheng Zhang; Lei Fan; Hao Li; …
LiteVLA-Edge: Quantized On-Device Multimodal Control for Embedded Robotics — Justin Williams; Kishor Datta Gupta; Roy George; Mrinmoy Sarkar
Act-Observe-Rewrite: Multimodal Coding Agents as In-Context Policy Learners for Robot Manipulation — Vaishak Kumar

世界模型从像素续写转向结构化潜状态

世界模型研究明显在摆脱像素重建。PERSIST把长期记忆放进持久化3D潜状态，直接改善回访场景时的几何一致性；NE-Dreamer预测下一时刻嵌入，而不是重建图像，强调对记忆和规划更有用的预测性表示；CoWVLA也用潜在运动代码替代冗余视频背景。这说明领域正在把容量从“还原画面”转向“建模变化、结构与可控状态”。

Representative sources

Beyond Pixel Histories: World Models with Persistent 3D State — Samuel Garcin; Thomas Walker; Steven McDonagh; Tim Pearce; Hakan Bilen; Tianyu He; …
Next Embedding Prediction Makes World Models Stronger — George Bredis; Nikita Balagansky; Daniil Gavrilov; Ruslan Rakhimov
Chain of World: World Model Thinking in Latent Motion — Fuxiang Yang; Donglin Di; Lulu Tang; Xuancheng Zhang; Lei Fan; Hao Li; …

共享世界建模开始进入多智能体阶段

ShareVerse显示，世界模型的边界正从单体视角扩展到多智能体共享环境。其关键不只是生成视频，而是同时维持单智能体内部多视角一致，以及跨智能体之间对同一世界的共同约束。这对多机器人协作、仿真训练和共享环境推演都很关键，也提示“共享世界状态”会成为下一阶段的重要问题。

Representative sources

ShareVerse: Multi-Agent Consistent Video Generation for Shared World Modeling — Jiayi Zhu; Jianing Zhang; Yiying Yang; Wei Cheng; Xiaoyun Yuan

Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.

View repo 5-minute quickstart