Trend brief · 2026-03-09

机器人VLA走向自动造数、后训练增强与交互式世界模型

今天的机器人论文很集中：大家不再只追求更大的通用模型，而是开始系统性补齐数据、后训练、世界模型和部署链路。一个更实用的机器人栈正在成形。最强信号来自“数据与增强方式”的变化。Seed2Scale证明，具身学习不必继续重度依赖人工示教。它只用4条种子示范，就能靠“小模型采集+大模型验真+目标策略学习”的闭环，把平均成功率拉到68.57%。

8 tracked topics

Evolution3 signals · Continuing 1 · Emerging 1 · Shifting 1

Embodied AI

robotics VLA world-models data-engine post-training inference-guidance efficient-deployment policy-routing

Source markdown

Overview

Evolution

3 signals3 history windows

当前窗口延续了前几日对机器人基础模型“可部署、可验证、可扩展”的关注，但实现方式更成熟。与机器人具身智能转向轻量适配、长时序增强与部署一致性 (2026-03-08) 相比，优化点从轻量适配继续下沉到缓存、量化和双频控制；与世界模型转向安全监测、4D时空建模与高效控制 (2026-03-07) 相比，世界模型不再只是安全与预测模块，而开始承担训练、评测和数据生成底座；与 VLA部署短板修补加速 (2026-03-06) 相比，VLA 的提升不再局限于语言或视角修补，而是转向后训练奖励、推理时引导和自动造数三条并行路线。

部署一致性与算力约束

Continuing

History

机器人具身智能转向轻量适配、长时序增强与部署一致性 (2026-03-08)

相对机器人具身智能转向轻量适配、长时序增强与部署一致性 (2026-03-08) 强调的轻量适配与长时序增强，本期“部署友好”仍是主线，但证据从插件式改造进一步走向系统级落地。DyQ-VLA 用 Motion Fineness 与 Angular Jerk 作为在线代理，把激活精度在 2/4/8 bit 与 BF16 间动态切换，在仅 30.9% 内存下保持 99.5% 性能，真实推理最高加速 1.43×。SaiVLA-0 则把冻结 VLM 与高频控制解耦，split feature caching 将训练时间从 7.5h 降到 4.5h，并把初步 LIBERO 平均成功率从 86.5% 提到 92.5%。这比机器人具身智能转向轻量适配、长时序增强与部署一致性 (2026-03-08) 里 LoRA-SP、TempoFit 那类轻改造更进一步，开始直接围绕时延、缓存和算力协议设计系统。

世界模型成为交互训练与评测底座

Emerging

History

世界模型转向安全监测、4D时空建模与高效控制 (2026-03-07)

相对世界模型转向安全监测、4D时空建模与高效控制 (2026-03-07) 中“世界模型从生成器走向决策与安全接口”的信号，本期世界模型更明显变成可用训练基础设施。PlayWorld 不再只做失效检测，而是直接用自主自玩数据训练动作条件视频模型；6h 自玩已优于 6h 人类示教，30h 继续提升，并声称模型内强化学习可让真实部署成功率提高 65%。IWS 也把世界模型推进到交互级别：单张 RTX 4090 上 15 FPS、超过 10 分钟稳定 rollout，192 steps 预测 FVD 243.20，远低于 Cosmos 的 799.34。这说明当前焦点已从“能否判断异常”转到“能否支撑训练、评测与数据生成闭环”。

VLA增强路径从修补短板转向双阶段扩展

Shifting

History

VLA部署短板修补加速 (2026-03-06)

相对 VLA部署短板修补加速 (2026-03-06) 以语言服从、视角鲁棒、真实部署短板修补为主，本期 VLA 提升路径明显从“补缺陷”转向“多阶段增强”。AtomVLA 用 GPT-4o 生成 2–5 个原子子任务，再结合 V-JEPA2 潜在世界模型做离线 GRPO，LIBERO 从 SFT 的 93.0% 提到…Read full rationaleCollapse

相对 VLA部署短板修补加速 (2026-03-06) 以语言服从、视角鲁棒、真实部署短板修补为主，本期 VLA 提升路径明显从“补缺陷”转向“多阶段增强”。AtomVLA 用 GPT-4o 生成 2–5 个原子子任务，再结合 V-JEPA2 潜在世界模型做离线 GRPO，LIBERO 从 SFT 的 93.0% 提到 97.0%，Long 子集从 90.0% 到 94.4%，真实泛化设置比 π0 高 18.3 个百分点。与此同时，OmniGuide 展示了另一条不重训路线：在推理时加入统一引导场，就把成功率从 24.2% 提到 92.4%。和 VLA部署短板修补加速 (2026-03-06) 的问题修补相比，本期更像是在训练后与测试时双端扩展通用策略能力。

Clusters

自进化数据引擎开始替代重人工示教

主题从“拿更多示范”转向“自动造数据且先验真”。Seed2Scale 用 4 条种子示范启动自进化闭环：小模型 SuperTiny 负责并行探索，大模型 Qwen3-VL-32B 负责 0–10 分质量评分，再训练 SmolVLA。重点不只是扩数据，而是压制失败轨迹污染。结果上，4 个 Agibot A2 任务平均成功率从 22.18% 提升到 68.57%，Can Stacking 从 7.50% 到 65.90%。

Representative sources

Seed2Scale: A Self-Evolving Data Engine for Embodied AI via Small to Large Model Synergy and Multimodal Evaluation — Cong Tai; Zhaoyu Zheng; Haixu Long; Hansheng Wu; Zhengbin Long; Haodong Xiang; …

VLA增强从训练期扩展到后训练与推理时引导

本期多篇工作不再只做监督微调，而是给 VLA 加上更细的中间结构。AtomVLA 用 GPT-4o 把任务拆成 2–5 个原子子任务，再用基于 V-JEPA2 的潜在世界模型做离线奖励优化，在 LIBERO 达到 97.0%，高于 π0 的 94.2%，在真实 Galaxea R1 Lite 泛化设置下也比 π0 高 18.3 个百分点。OmniGuide 则把 3D 几何、VLM 语义和人类演示统一写成推理时能量场，不重训就把成功率从 24.2% 拉到 92.4%，安全率从 7.0% 拉到 93.5%。

Representative sources

AtomVLA: Scalable Post-Training for Robotic Manipulation via Predictive Latent World Models — Xiaoquan Sun; Zetian Xu; Chen Cao; Zonghe Liu; Yihan Sun; Jingrui Pang; …
OmniGuide: Universal Guidance Fields for Enhancing Generalist Robot Policies — Yunzhou Song; Long Le; Yong-Hyun Park; Jie Wang; Junyao Shi; Lingjie Liu; …

世界模型从离线生成器走向交互式训练基础设施

世界模型本期明显更偏“可交互、可训练、可评估”。PlayWorld强调自玩数据比成功偏置的人类示教更适合学习接触丰富动态：6h 自玩已优于 6h 人类示教，扩到 30h 后在 success 上 LPIPS 从 0.082 降到 0.071，并声称真实部署成功率可提升 65%。IWS 则把重点放在稳定长时交互，单张 RTX 4090 即可 15 FPS 运行超过 10 分钟，在 192 steps 预测上 FVD 243.20，显著优于 Cosmos 的 799.34。

Representative sources

PlayWorld: Learning Robot World Models from Autonomous Play — Tenny Yin; Zhiting Mei; Zhonghe Zheng; Miyu Yamane; David Wang; Jade Sceats; …
Interactive World Simulator for Robot Policy Training and Evaluation — Yixuan Wang; Rhythm Syed; Fangyu Wu; Mengchao Zhang; Aykut Onol; Jose Barreiros; …

算力感知架构与压缩优化转入落地细节

部署侧工作继续升温，但做法更工程化。DyQ-VLA 用运动学信号驱动动态激活比特切换，保持 99.5% 原始性能的同时把内存压到 30.9%，仿真加速 1.49×、真实加速最高 1.43×。SaiVLA-0 则把高层语义和高频控制拆开，用特征缓存把训练时间从 7.5h 降到 4.5h，并把初步 LIBERO 成功率从 86.5% 提到 92.5%。这类工作共同说明，VLA 讨论的重点正从“能不能做”转到“能否稳定、便宜、可复现地跑起来”。

Representative sources

DyQ-VLA: Temporal-Dynamic-Aware Quantization for Embodied Vision-Language-Action Models — Zihao Zheng; Hangyu Cao; Sicheng Tian; Jiayu Chen; Maoliang Li; Xinhao Sun; …
SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action — Xiang Shi; Wenlong Huang; Menglin Zou; Xinhai Sun

路由与专家组合成为通用策略的替代路径

另一条清晰支线是，不再假设单一策略包打天下。RoboRouter 用历史任务检索和免训练路由，在 RoboTwin 2.0 上做到 79.85%，高于最强单一基线 DP3 的 76.45%；真实机器人平均 47%，也高于 π0 的 34%。MetaWorld-X 则在更高自由度的人形 loco-manipulation 中，把专家池、世界模型和 VLM 路由结合，Walk 回报 1118.7，高于 TD-MPC2 的 644.2，Run 达 2056.9，而 TD-MPC2 仅 66.1。

Representative sources

RoboRouter: Training-Free Policy Routing for Robotic Manipulation — Yiteng Chen; Zhe Cao; Hongjia Ren; Chenjie Yang; Wenbo Li; Shiyi Wang; …
MetaWorld-X: Hierarchical World Modeling via VLM-Orchestrated Experts for Humanoid Loco-Manipulation — Yutong Shen; Hangxu Liu; Penghui Liu; Jiashuo Luo; Yongkang Zhang; Rex Morvley; …

Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.

View repo 5-minute quickstart