Trend brief · 2026-03-03

世界模型加速转向结构化状态,机器人VLA同步迈向可部署与可修复

本期的共同主题是:世界模型不再只追求“生成得像”,而是更重视记忆、动态和部署可用性。机器人与仿真两条线正在靠近,目标都是更稳定地理解世界变化,并把这种能力接到真实控制上。趋势一:机器人控制开始重视时序世界理解,而不只是动作拟合CoWVLA把世界模型的时间推理与潜在动作表示结合起来,避免在训练中浪费大量容量去重建静态背景。它在LIBERO上平均成功率达到0.

6 tracked topics

本期的共同主题是:世界模型不再只追求“生成得像”,而是更重视记忆、动态和部署可用性。机器人与仿真两条线正在靠近,目标都是更稳定地理解世界变化,并把这种能力接到真实控制上。趋势一:机器人控制开始重视时序世界理解,而不只是动作拟合CoWVLA把世界模型的时间推理与潜在动作表示结合起来,避免在训练中浪费大量容量去重建静态背景。它在LIBERO上平均成功率达到0.

机器人智能体从“会看会做”走向“会部署、会修复”

机器人方向的主线很清楚:一类工作在提升VLA的时序世界理解,另一类工作在把VLA真正压到边缘设备上,还有工作尝试让多模态大模型直接改写控制器代码。CoWVLA用潜在运动替代整帧预测,重点解决长时序动态建模的效率问题;LiteVLA-Edge强调量化后本地闭环;AOR则把“失败后可自修复”推进到低层控制代码。三者共同指向更可部署、更可迭代的机器人系统。

Representative sources

世界模型从像素续写转向结构化潜状态

世界模型研究明显在摆脱像素重建。PERSIST把长期记忆放进持久化3D潜状态,直接改善回访场景时的几何一致性;NE-Dreamer预测下一时刻嵌入,而不是重建图像,强调对记忆和规划更有用的预测性表示;CoWVLA也用潜在运动代码替代冗余视频背景。这说明领域正在把容量从“还原画面”转向“建模变化、结构与可控状态”。

Representative sources

共享世界建模开始进入多智能体阶段

ShareVerse显示,世界模型的边界正从单体视角扩展到多智能体共享环境。其关键不只是生成视频,而是同时维持单智能体内部多视角一致,以及跨智能体之间对同一世界的共同约束。这对多机器人协作、仿真训练和共享环境推演都很关键,也提示“共享世界状态”会成为下一阶段的重要问题。

Representative sources

Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.

Newer代码智能评测转向真实工程:端到端交付、长期维护与生产监督并进Older代码智能体从“会写”转向“能验证、能协作、能落地”