Trend brief · 2026-W10

机器人VLA迈向可部署系统:按需推理、记忆插件与安全世界模型

本周机器人研究高度收敛。中心问题很明确:怎样把VLA和世界模型从“能做”推进到“能稳、能省、能上线”。一条主线是按需推理。不少系统不再默认每一步都调用大模型,而是让高层推理只在关键节点出现。这样既省算力,也更适合长时程任务。Tri-System是这一思路的代表:它在高层视觉语言模型和低层控制器之间加入Critic监控,执行正常时保持快速闭环,遇到停滞或异常再触发重规划。

5 tracked topics

本周机器人研究高度收敛。中心问题很明确:怎样把VLA和世界模型从“能做”推进到“能稳、能省、能上线”。一条主线是按需推理。不少系统不再默认每一步都调用大模型,而是让高层推理只在关键节点出现。这样既省算力,也更适合长时程任务。Tri-System是这一思路的代表:它在高层视觉语言模型和低层控制器之间加入Critic监控,执行正常时保持快速闭环,遇到停滞或异常再触发重规划。

VLA转向按需推理与失败恢复

本周最强主线是把视觉-语言-动作模型(VLA)从演示系统推向可部署系统。方法不再追求每一步都做重推理,而是强调按需唤醒、异步调度和失败恢复。代表工作是 Tri-System:用视觉 Critic 监控执行,只在子任务完成、事故或停滞时唤醒高层 VLM,在真实长任务中明显优于单系统与双系统方案。

Representative sources

机器人记忆从概念走向评测与插件化增强

记忆不再只是“给模型加历史”。本周更强调两件事:先把记忆需求测清楚,再用更轻的方式补上时序能力。RoboMME把记忆拆成 temporal、spatial、object、procedural 四类,并显示不存在通吃方案。TempoFit则走插件路线,直接复用层级 K/V 缓存,在不训练的前提下提升长时程操作成功率。

Representative sources

世界模型走向结构化动态表示与安全接口

世界模型的关注点明显变化。重点不再是生成更像的视频,而是学到对控制有用的动态表征,并把这种表征接到安全监测和决策上。CoWVLA用潜在运动链替代冗余未来帧重建,在 LIBERO 上达到 0.956。另一条线则把概率世界模型用于运行时异常检测,在双臂失效检测上做到 92.0±6.4% 总体准确率。

Representative sources

轻量适配与视角鲁棒成为部署补丁层

真实部署的另一条主线是少改模型、多补接口。AnyCamVLA在不加示教、不微调策略的前提下,把测试视角实时变回训练视角,显著提升相机扰动鲁棒性。同期的轻量适配工作也在减少任务迁移成本,说明社区正把“如何低成本上线”放到和“如何提分”同等重要的位置。

Representative sources

Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.

Newer机器人VLA走向自动造数、后训练增强与交互式世界模型Older代码代理进入真实工程闭环:仓库理解、端到端评测与安全治理升温