Trend brief · 2026-03-12

机器人研究转向闭环造数、持续学习VLA与灵巧操作基础设施

今天的主线很清楚：机器人研究继续围绕VLA、长时程和灵巧操作推进，但重点从“更大模型”转向“更完整闭环”。最强信号有三条：自动造数开始具备自复位能力，VLA开始显示天然持续学习与主动感知能力，灵巧操作则明显下沉到示教采集和接触仿真基础设施。RADAR和RoboClaw代表了闭环机器人的两种实现路径。前者把任务生成、执行、验证、复位串成自动采集系统，后者把数据采集、策略学习与部署代理统一起来。

8 tracked topics

Evolution3 signals · Continuing 2 · Shifting 1

Embodied AI

robotics VLA continual-learning long-horizon active-perception dexterous-manipulation simulation world-models

Source markdown

Overview

Evolution

3 signals3 history windows

与前几天相比，今天最明显的变化是：机器人研究继续围绕 VLA、长时程与灵巧操作展开，但焦点更偏真实闭环。自动造数不再只是扩数据，而是加入复位与恢复。VLA 不只建模未来，也开始强调持续适应和主动看。灵巧操作则进一步下沉到示教采集和接触仿真这些基础设施层。

自进化数据引擎继续推进到真实闭环

Continuing

History

机器人VLA走向自动造数、后训练增强与交互式世界模型 (2026-03-09)机器人VLA转向灵巧操作、长时程恢复与多任务部署 (2026-03-10)

相对机器人VLA走向自动造数、后训练增强与交互式世界模型 (2026-03-09) 中的 Seed2Scale 与机器人VLA转向灵巧操作、长时程恢复与多任务部署 (2026-03-10) 对“长时程恢复”的强调，今天这条线继续增强，而且更靠近真实机器人闭环。RADAR 把自动造数拆成规划、执行、VQA 验证和因果复位四段，只需 2–5 个 3D 演示就能启动，仿真长时程任务最高 90%。RoboClaw 则把恢复机制前置到生命周期里，真实长时程任务成功率提升 25%，人工时间下降 53.7%。这说明“自动造数”已从数据扩写，推进到带复位与失败恢复的在线生产系统。

VLA主线从未来预测转向稳定适应与主动观察

Shifting

History

VLA转向未来动力学、运行时增强与接触密集操作 (2026-03-11)

相对 VLA转向未来动力学、运行时增强与接触密集操作 (2026-03-11) 中 DiT4DiT 与 FutureVLA 代表的“未来动力学成为VLA骨干”，今天重心从显式预测未来，转向让现有 VLA 更稳地持续适应与主动观察。Simple Recipe Works 显示 Seq. FT + LoRA + on-policy RL 在…Read full rationaleCollapse

相对 VLA转向未来动力学、运行时增强与接触密集操作 (2026-03-11) 中 DiT4DiT 与 FutureVLA 代表的“未来动力学成为VLA骨干”，今天重心从显式预测未来，转向让现有 VLA 更稳地持续适应与主动观察。Simple Recipe Works 显示 Seq. FT + LoRA + on-policy RL 在 libero-long-horizon 上达到 89.8% AVG、NBT -2.4、ZS 86.6%，几乎贴近 oracle 的 90.5%。SaPaVe 则用相机/操作解耦，把真实机器人主动操作成功率推到 85.0%，高于 π0 的 45.0% 和 GR00T-N1 的 53.75%。变化不在“是否建模未来”，而在“如何把适应与观察直接做成稳定能力”。

灵巧操作热度延续，但抓手更偏基础设施

Continuing

History

VLA转向未来动力学、运行时增强与接触密集操作 (2026-03-11)机器人VLA转向灵巧操作、长时程恢复与多任务部署 (2026-03-10)

灵巧操作仍是连续三天的高频主题，但证据重点继续从模型结构走向工程闭环。对比机器人VLA转向灵巧操作、长时程恢复与多任务部署 (2026-03-10) 里 Cross-Hand Latent Representation 与 DexHiL 的表示共享和人在回路后训练，今天 HumDex 先从示教入口下手：采集 60 段数据时间从 59.8 分钟降到 44.3 分钟，策略成功率从 57.5% 升到 80.0%，Scan&Pack 遥操作更从 0/60 到 54/60。再对照 VLA转向未来动力学、运行时增强与接触密集操作 (2026-03-11) 对接触密集操作的关注，ComFree-Sim 补上仿真后端，在密集接触下给出 2–3× 吞吐与近线性扩展。趋势在延续，但抓手已从“怎么学”转向“怎么更高效地采、仿、控”。

Clusters

闭环数据引擎与自重置机器人流程

机器人数据获取继续从“人工录制”转向“自循环生产”，但这一波更强调真实闭环。RADAR 只用 2–5 个 3D 演示就能启动自动采集，并把任务规划、执行验证、逆向复位串成完整流水线；仿真长时程任务成功率最高到 90%。RoboClaw 则把同一套代理同时用于采集、训练和部署，用成对的执行/复位策略持续回收数据，在真实长时程任务上把成功率提升 25%，人工时间下降 53.7%。这说明自动造数正在从“离线扩写”走向“在线自重置、自恢复、自增广”。

Representative sources

RADAR: Closed-Loop Robotic Data Generation via Semantic Planning and Autonomous Causal Environment Reset — Yongzhong Wang; Keyu Zhu; Yong Zhong; Liqiong Wang; Jinyu Yang; Feng Zheng
RoboClaw: An Agentic Framework for Scalable Long-Horizon Robotic Tasks — Ruiying Li; Yunlang Zhou; YuYao Zhu; Kylin Chen; Jingyuan Wang; Sukai Wang; …

VLA走向持续学习与主动感知

今天最强的 VLA 信号不是更大的模型，而是更稳的适应机制。Simple Recipe Works 表明，大型预训练 VLA 在持续强化学习里，简单顺序微调配合 LoRA 与 on-policy RL 就能很强：在 libero-spatial 上 AVG 81.2%，在 libero-object 上 93.2%，在 libero-long-horizon 上 89.8%，且 NBT 低到 0.3、1.0，甚至达到 -2.4 的负遗忘。另一条线来自 SaPaVe：它把“看”和“动”解耦，让主动感知变成可训练能力，在真实机器人上达到 85.0%，明显高于 π0 的 45.0% 和 GR00T-N1 的 53.75%。VLA 正在从静态感知器变成能持续学习、主动调整视角的执行体。

Representative sources

Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learners with Reinforcement Learning — Jiaheng Hu; Jay Shim; Chen Tang; Yoonchang Sung; Bo Liu; Peter Stone; …
SaPaVe: Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics — Mengzhen Liu; Enshen Zhou; Cheng Chi; Yi Han; Shanyu Rong; Liming Chen; …

灵巧操作转向可采集性与接触基础设施

灵巧操作这条线更务实了。一类工作在补数据入口：HumDex 用 IMU 全身遥操作避开遮挡，60 段示教采集时间从 59.8 分钟降到 44.3 分钟，遥操作成功率从 74.6% 升到 91.7%，高遮挡 Scan&Pack 任务更从 0/60 提到 54/60。另一类工作在补基础设施：ComFree-Sim 用解析式接触求解替代迭代优化，在密集接触下给出 2–3× 吞吐和近线性扩展，同时把平均穿透压到 0.9±1.5 mm 这一量级。焦点已不只是“学会做”，而是“更快采集、更稳仿真、更能落地”。

Representative sources

HumDex:Humanoid Dexterous Manipulation Made Easy — Liang Heng; Yihe Tang; Jiajun Xu; Henghui Bao; Di Huang; Yue Wang
ComFree-Sim: A GPU-Parallelized Analytical Contact Physics Engine for Scalable Contact-Rich Robotics Simulation and Control — Chetan Borse; Zhixian Xie; Wei-Cheng Huang; Wanxin Jin

世界模型与开放世界空间感知补底座

除操作本身外，世界建模与空间表征也在补齐具身系统的底层能力。Temporal Straightening 通过让潜在轨迹更“直”，把梯度规划成功率提升 20–60%，MPC 提升 20–30%，说明世界模型开始直接为规划几何服务。O3N 则面向开放世界 360° 感知，在 QuadOcc 上达到 16.54 mIoU / 21.16 Novel mIoU，并带来 +2.21 mIoU 与 +3.01 Novel mIoU 提升。一个偏规划，一个偏感知，但共同指向更完整的具身底座。

Representative sources

Temporal Straightening for Latent Planning — Ying Wang; Oumayma Bounou; Gaoyue Zhou; Randall Balestriero; Tim G. J. Rudner; Yann LeCun; …
O3N: Omnidirectional Open-Vocabulary Occupancy Prediction — Mengfei Duan; Hao Shi; Fei Teng; Guoqiang Zhao; Yuheng Zhang; Zhiyong Li; …

Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.

View repo 5-minute quickstart