---
kind: trend
trend_doc_id: 301
granularity: day
period_start: '2026-03-09T00:00:00'
period_end: '2026-03-10T00:00:00'
topics:
- robotics
- VLA
- world-models
- data-engine
- post-training
- inference-guidance
- efficient-deployment
- policy-routing
run_id: materialize-outputs
aliases:
- recoleta-trend-301
tags:
- recoleta/trend
- topic/robotics
- topic/vla
- topic/world-models
- topic/data-engine
- topic/post-training
- topic/inference-guidance
- topic/efficient-deployment
- topic/policy-routing
language_code: zh-CN
---

# 机器人VLA走向自动造数、后训练增强与交互式世界模型

## Overview
今天的机器人论文很集中：大家不再只追求更大的通用模型，而是开始系统性补齐数据、后训练、世界模型和部署链路。一个更实用的机器人栈正在成形。最强信号来自“数据与增强方式”的变化。Seed2Scale证明，具身学习不必继续重度依赖人工示教。它只用4条种子示范，就能靠“小模型采集+大模型验真+目标策略学习”的闭环，把平均成功率拉到68.57%。

## Evolution

当前窗口延续了前几日对机器人基础模型“可部署、可验证、可扩展”的关注，但实现方式更成熟。与 [机器人具身智能转向轻量适配、长时序增强与部署一致性 (2026-03-08)](day--2026-03-08--trend--69.md) 相比，优化点从轻量适配继续下沉到缓存、量化和双频控制；与 [世界模型转向安全监测、4D时空建模与高效控制 (2026-03-07)](day--2026-03-07--trend--68.md) 相比，世界模型不再只是安全与预测模块，而开始承担训练、评测和数据生成底座；与 [VLA部署短板修补加速 (2026-03-06)](day--2026-03-06--trend--67.md) 相比，VLA 的提升不再局限于语言或视角修补，而是转向后训练奖励、推理时引导和自动造数三条并行路线。

### 部署一致性与算力约束

- 变化：延续
- 历史窗口：[机器人具身智能转向轻量适配、长时序增强与部署一致性 (2026-03-08)](day--2026-03-08--trend--69.md)

相对 [机器人具身智能转向轻量适配、长时序增强与部署一致性 (2026-03-08)](day--2026-03-08--trend--69.md) 强调的轻量适配与长时序增强，本期“部署友好”仍是主线，但证据从插件式改造进一步走向系统级落地。DyQ-VLA 用 Motion Fineness 与 Angular Jerk 作为在线代理，把激活精度在 2/4/8 bit 与 BF16 间动态切换，在仅 30.9% 内存下保持 99.5% 性能，真实推理最高加速 1.43×。SaiVLA-0 则把冻结 VLM 与高频控制解耦，split feature caching 将训练时间从 7.5h 降到 4.5h，并把初步 LIBERO 平均成功率从 86.5% 提到 92.5%。这比 [机器人具身智能转向轻量适配、长时序增强与部署一致性 (2026-03-08)](day--2026-03-08--trend--69.md) 里 LoRA-SP、TempoFit 那类轻改造更进一步，开始直接围绕时延、缓存和算力协议设计系统。

### 世界模型成为交互训练与评测底座

- 变化：新出现
- 历史窗口：[世界模型转向安全监测、4D时空建模与高效控制 (2026-03-07)](day--2026-03-07--trend--68.md)

相对 [世界模型转向安全监测、4D时空建模与高效控制 (2026-03-07)](day--2026-03-07--trend--68.md) 中“世界模型从生成器走向决策与安全接口”的信号，本期世界模型更明显变成可用训练基础设施。PlayWorld 不再只做失效检测，而是直接用自主自玩数据训练动作条件视频模型；6h 自玩已优于 6h 人类示教，30h 继续提升，并声称模型内强化学习可让真实部署成功率提高 65%。IWS 也把世界模型推进到交互级别：单张 RTX 4090 上 15 FPS、超过 10 分钟稳定 rollout，192 steps 预测 FVD 243.20，远低于 Cosmos 的 799.34。这说明当前焦点已从“能否判断异常”转到“能否支撑训练、评测与数据生成闭环”。

### VLA增强路径从修补短板转向双阶段扩展

- 变化：转向
- 历史窗口：[VLA部署短板修补加速 (2026-03-06)](day--2026-03-06--trend--67.md)

相对 [VLA部署短板修补加速 (2026-03-06)](day--2026-03-06--trend--67.md) 以语言服从、视角鲁棒、真实部署短板修补为主，本期 VLA 提升路径明显从“补缺陷”转向“多阶段增强”。AtomVLA 用 GPT-4o 生成 2–5 个原子子任务，再结合 V-JEPA2 潜在世界模型做离线 GRPO，LIBERO 从 SFT 的 93.0% 提到 97.0%，Long 子集从 90.0% 到 94.4%，真实泛化设置比 π0 高 18.3 个百分点。与此同时，OmniGuide 展示了另一条不重训路线：在推理时加入统一引导场，就把成功率从 24.2% 提到 92.4%。和 [VLA部署短板修补加速 (2026-03-06)](day--2026-03-06--trend--67.md) 的问题修补相比，本期更像是在训练后与测试时双端扩展通用策略能力。

## Clusters

### 自进化数据引擎开始替代重人工示教

主题从“拿更多示范”转向“自动造数据且先验真”。Seed2Scale 用 4 条种子示范启动自进化闭环：小模型 SuperTiny 负责并行探索，大模型 Qwen3-VL-32B 负责 0–10 分质量评分，再训练 SmolVLA。重点不只是扩数据，而是压制失败轨迹污染。结果上，4 个 Agibot A2 任务平均成功率从 22.18% 提升到 68.57%，Can Stacking 从 7.50% 到 65.90%。

#### Representative sources
- [Seed2Scale: A Self-Evolving Data Engine for Embodied AI via Small to Large Model Synergy and Multimodal Evaluation](../Inbox/2026-03-09--seed2scale-a-self-evolving-data-engine-for-embodied-ai-via-small-to-large-model-synergy-and-multimodal-evaluation.md) — Cong Tai; Zhaoyu Zheng; Haixu Long; Hansheng Wu; Zhengbin Long; Haodong Xiang; …


### VLA增强从训练期扩展到后训练与推理时引导

本期多篇工作不再只做监督微调，而是给 VLA 加上更细的中间结构。AtomVLA 用 GPT-4o 把任务拆成 2–5 个原子子任务，再用基于 V-JEPA2 的潜在世界模型做离线奖励优化，在 LIBERO 达到 97.0%，高于 π0 的 94.2%，在真实 Galaxea R1 Lite 泛化设置下也比 π0 高 18.3 个百分点。OmniGuide 则把 3D 几何、VLM 语义和人类演示统一写成推理时能量场，不重训就把成功率从 24.2% 拉到 92.4%，安全率从 7.0% 拉到 93.5%。

#### Representative sources
- [AtomVLA: Scalable Post-Training for Robotic Manipulation via Predictive Latent World Models](../Inbox/2026-03-09--atomvla-scalable-post-training-for-robotic-manipulation-via-predictive-latent-world-models.md) — Xiaoquan Sun; Zetian Xu; Chen Cao; Zonghe Liu; Yihan Sun; Jingrui Pang; …
- [OmniGuide: Universal Guidance Fields for Enhancing Generalist Robot Policies](../Inbox/2026-03-09--omniguide-universal-guidance-fields-for-enhancing-generalist-robot-policies.md) — Yunzhou Song; Long Le; Yong-Hyun Park; Jie Wang; Junyao Shi; Lingjie Liu; …


### 世界模型从离线生成器走向交互式训练基础设施

世界模型本期明显更偏“可交互、可训练、可评估”。PlayWorld强调自玩数据比成功偏置的人类示教更适合学习接触丰富动态：6h 自玩已优于 6h 人类示教，扩到 30h 后在 success 上 LPIPS 从 0.082 降到 0.071，并声称真实部署成功率可提升 65%。IWS 则把重点放在稳定长时交互，单张 RTX 4090 即可 15 FPS 运行超过 10 分钟，在 192 steps 预测上 FVD 243.20，显著优于 Cosmos 的 799.34。

#### Representative sources
- [PlayWorld: Learning Robot World Models from Autonomous Play](../Inbox/2026-03-09--playworld-learning-robot-world-models-from-autonomous-play.md) — Tenny Yin; Zhiting Mei; Zhonghe Zheng; Miyu Yamane; David Wang; Jade Sceats; …
- [Interactive World Simulator for Robot Policy Training and Evaluation](../Inbox/2026-03-09--interactive-world-simulator-for-robot-policy-training-and-evaluation.md) — Yixuan Wang; Rhythm Syed; Fangyu Wu; Mengchao Zhang; Aykut Onol; Jose Barreiros; …


### 算力感知架构与压缩优化转入落地细节

部署侧工作继续升温，但做法更工程化。DyQ-VLA 用运动学信号驱动动态激活比特切换，保持 99.5% 原始性能的同时把内存压到 30.9%，仿真加速 1.49×、真实加速最高 1.43×。SaiVLA-0 则把高层语义和高频控制拆开，用特征缓存把训练时间从 7.5h 降到 4.5h，并把初步 LIBERO 成功率从 86.5% 提到 92.5%。这类工作共同说明，VLA 讨论的重点正从“能不能做”转到“能否稳定、便宜、可复现地跑起来”。

#### Representative sources
- [DyQ-VLA: Temporal-Dynamic-Aware Quantization for Embodied Vision-Language-Action Models](../Inbox/2026-03-09--dyq-vla-temporal-dynamic-aware-quantization-for-embodied-vision-language-action-models.md) — Zihao Zheng; Hangyu Cao; Sicheng Tian; Jiayu Chen; Maoliang Li; Xinhao Sun; …
- [SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action](../Inbox/2026-03-09--saivla-0-cerebrum-pons-cerebellum-tripartite-architecture-for-compute-aware-vision-language-action.md) — Xiang Shi; Wenlong Huang; Menglin Zou; Xinhai Sun


### 路由与专家组合成为通用策略的替代路径

另一条清晰支线是，不再假设单一策略包打天下。RoboRouter 用历史任务检索和免训练路由，在 RoboTwin 2.0 上做到 79.85%，高于最强单一基线 DP3 的 76.45%；真实机器人平均 47%，也高于 π0 的 34%。MetaWorld-X 则在更高自由度的人形 loco-manipulation 中，把专家池、世界模型和 VLM 路由结合，Walk 回报 1118.7，高于 TD-MPC2 的 644.2，Run 达 2056.9，而 TD-MPC2 仅 66.1。

#### Representative sources
- [RoboRouter: Training-Free Policy Routing for Robotic Manipulation](../Inbox/2026-03-09--roborouter-training-free-policy-routing-for-robotic-manipulation.md) — Yiteng Chen; Zhe Cao; Hongjia Ren; Chenjie Yang; Wenbo Li; Shiyi Wang; …
- [MetaWorld-X: Hierarchical World Modeling via VLM-Orchestrated Experts for Humanoid Loco-Manipulation](../Inbox/2026-03-09--metaworld-x-hierarchical-world-modeling-via-vlm-orchestrated-experts-for-humanoid-loco-manipulation.md) — Yutong Shen; Hangxu Liu; Penghui Liu; Jiashuo Luo; Yongkang Zhang; Rex Morvley; …
