Trend brief · 2026-03-09

机器人VLA走向自动造数、后训练增强与交互式世界模型

今天的机器人论文很集中:大家不再只追求更大的通用模型,而是开始系统性补齐数据、后训练、世界模型和部署链路。一个更实用的机器人栈正在成形。最强信号来自“数据与增强方式”的变化。Seed2Scale证明,具身学习不必继续重度依赖人工示教。它只用4条种子示范,就能靠“小模型采集+大模型验真+目标策略学习”的闭环,把平均成功率拉到68.57%。

8 tracked topics
Evolution3 signals · Continuing 1 · Emerging 1 · Shifting 1

今天的机器人论文很集中:大家不再只追求更大的通用模型,而是开始系统性补齐数据、后训练、世界模型和部署链路。一个更实用的机器人栈正在成形。最强信号来自“数据与增强方式”的变化。Seed2Scale证明,具身学习不必继续重度依赖人工示教。它只用4条种子示范,就能靠“小模型采集+大模型验真+目标策略学习”的闭环,把平均成功率拉到68.57%。

3 signals3 history windows

当前窗口延续了前几日对机器人基础模型“可部署、可验证、可扩展”的关注,但实现方式更成熟。与 机器人具身智能转向轻量适配、长时序增强与部署一致性 (2026-03-08) 相比,优化点从轻量适配继续下沉到缓存、量化和双频控制;与 世界模型转向安全监测、4D时空建模与高效控制 (2026-03-07) 相比,世界模型不再只是安全与预测模块,而开始承担训练、评测和数据生成底座;与 VLA部署短板修补加速 (2026-03-06) 相比,VLA 的提升不再局限于语言或视角修补,而是转向后训练奖励、推理时引导和自动造数三条并行路线。

部署一致性与算力约束

Continuing
相对 机器人具身智能转向轻量适配、长时序增强与部署一致性 (2026-03-08) 强调的轻量适配与长时序增强,本期“部署友好”仍是主线,但证据从插件式改造进一步走向系统级落地。DyQ-VLA 用 Motion Fineness 与 Angular Jerk 作为在线代理,把激活精度在 2/4/8 bit 与 BF16 间动态切换,在仅…Read full rationaleCollapse

相对 机器人具身智能转向轻量适配、长时序增强与部署一致性 (2026-03-08) 强调的轻量适配与长时序增强,本期“部署友好”仍是主线,但证据从插件式改造进一步走向系统级落地。DyQ-VLA 用 Motion Fineness 与 Angular Jerk 作为在线代理,把激活精度在 2/4/8 bit 与 BF16 间动态切换,在仅 30.9% 内存下保持 99.5% 性能,真实推理最高加速 1.43×。SaiVLA-0 则把冻结 VLM 与高频控制解耦,split feature caching 将训练时间从 7.5h 降到 4.5h,并把初步 LIBERO 平均成功率从 86.5% 提到 92.5%。这比 机器人具身智能转向轻量适配、长时序增强与部署一致性 (2026-03-08) 里 LoRA-SP、TempoFit 那类轻改造更进一步,开始直接围绕时延、缓存和算力协议设计系统。

世界模型成为交互训练与评测底座

Emerging

相对 世界模型转向安全监测、4D时空建模与高效控制 (2026-03-07) 中“世界模型从生成器走向决策与安全接口”的信号,本期世界模型更明显变成可用训练基础设施。PlayWorld 不再只做失效检测,而是直接用自主自玩数据训练动作条件视频模型;6h 自玩已优于 6h 人类示教,30h 继续提升,并声称模型内强化学习可让真实部署成功率提高 65%。IWS 也把世界模型推进到交互级别:单张 RTX 4090 上 15 FPS、超过 10 分钟稳定 rollout,192 steps 预测 FVD 243.20,远低于 Cosmos 的 799.34。这说明当前焦点已从“能否判断异常”转到“能否支撑训练、评测与数据生成闭环”。

VLA增强路径从修补短板转向双阶段扩展

Shifting
相对 VLA部署短板修补加速 (2026-03-06) 以语言服从、视角鲁棒、真实部署短板修补为主,本期 VLA 提升路径明显从“补缺陷”转向“多阶段增强”。AtomVLA 用 GPT-4o 生成 2–5 个原子子任务,再结合 V-JEPA2 潜在世界模型做离线 GRPO,LIBERO 从 SFT 的 93.0% 提到…Read full rationaleCollapse

相对 VLA部署短板修补加速 (2026-03-06) 以语言服从、视角鲁棒、真实部署短板修补为主,本期 VLA 提升路径明显从“补缺陷”转向“多阶段增强”。AtomVLA 用 GPT-4o 生成 2–5 个原子子任务,再结合 V-JEPA2 潜在世界模型做离线 GRPO,LIBERO 从 SFT 的 93.0% 提到 97.0%,Long 子集从 90.0% 到 94.4%,真实泛化设置比 π0 高 18.3 个百分点。与此同时,OmniGuide 展示了另一条不重训路线:在推理时加入统一引导场,就把成功率从 24.2% 提到 92.4%。和 VLA部署短板修补加速 (2026-03-06) 的问题修补相比,本期更像是在训练后与测试时双端扩展通用策略能力。

自进化数据引擎开始替代重人工示教

主题从“拿更多示范”转向“自动造数据且先验真”。Seed2Scale 用 4 条种子示范启动自进化闭环:小模型 SuperTiny 负责并行探索,大模型 Qwen3-VL-32B 负责 0–10 分质量评分,再训练 SmolVLA。重点不只是扩数据,而是压制失败轨迹污染。结果上,4 个 Agibot A2 任务平均成功率从 22.18% 提升到 68.57%,Can Stacking 从 7.50% 到 65.90%。

Representative sources

VLA增强从训练期扩展到后训练与推理时引导

本期多篇工作不再只做监督微调,而是给 VLA 加上更细的中间结构。AtomVLA 用 GPT-4o 把任务拆成 2–5 个原子子任务,再用基于 V-JEPA2 的潜在世界模型做离线奖励优化,在 LIBERO 达到 97.0%,高于 π0 的 94.2%,在真实 Galaxea R1 Lite 泛化设置下也比 π0 高 18.3 个百分点。OmniGuide 则把 3D 几何、VLM 语义和人类演示统一写成推理时能量场,不重训就把成功率从 24.2% 拉到 92.4%,安全率从 7.0% 拉到 93.5%。

Representative sources

世界模型从离线生成器走向交互式训练基础设施

世界模型本期明显更偏“可交互、可训练、可评估”。PlayWorld强调自玩数据比成功偏置的人类示教更适合学习接触丰富动态:6h 自玩已优于 6h 人类示教,扩到 30h 后在 success 上 LPIPS 从 0.082 降到 0.071,并声称真实部署成功率可提升 65%。IWS 则把重点放在稳定长时交互,单张 RTX 4090 即可 15 FPS 运行超过 10 分钟,在 192 steps 预测上 FVD 243.20,显著优于 Cosmos 的 799.34。

Representative sources

算力感知架构与压缩优化转入落地细节

部署侧工作继续升温,但做法更工程化。DyQ-VLA 用运动学信号驱动动态激活比特切换,保持 99.5% 原始性能的同时把内存压到 30.9%,仿真加速 1.49×、真实加速最高 1.43×。SaiVLA-0 则把高层语义和高频控制拆开,用特征缓存把训练时间从 7.5h 降到 4.5h,并把初步 LIBERO 成功率从 86.5% 提到 92.5%。这类工作共同说明,VLA 讨论的重点正从“能不能做”转到“能否稳定、便宜、可复现地跑起来”。

Representative sources

路由与专家组合成为通用策略的替代路径

另一条清晰支线是,不再假设单一策略包打天下。RoboRouter 用历史任务检索和免训练路由,在 RoboTwin 2.0 上做到 79.85%,高于最强单一基线 DP3 的 76.45%;真实机器人平均 47%,也高于 π0 的 34%。MetaWorld-X 则在更高自由度的人形 loco-manipulation 中,把专家池、世界模型和 VLM 路由结合,Walk 回报 1118.7,高于 TD-MPC2 的 644.2,Run 达 2056.9,而 TD-MPC2 仅 66.1。

Representative sources

Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.

Newer代码代理走向可验证闭环,安全审计与研发自动化同步升温Older机器人VLA迈向可部署系统:按需推理、记忆插件与安全世界模型