VLA转向按需推理与失败恢复
本周最强主线是把视觉-语言-动作模型(VLA)从演示系统推向可部署系统。方法不再追求每一步都做重推理,而是强调按需唤醒、异步调度和失败恢复。代表工作是 Tri-System:用视觉 Critic 监控执行,只在子任务完成、事故或停滞时唤醒高层 VLM,在真实长任务中明显优于单系统与双系统方案。
Representative sources
- Critic in the Loop: A Tri-System VLA Framework for Robust Long-Horizon Manipulation — Pengfei Yi; Yingjie Ma; Wenjiang Xu; Yanan Hao; Shuai Gan; Wanting Li; …