Trend brief · 2026-03-12

机器人研究转向闭环造数、持续学习VLA与灵巧操作基础设施

今天的主线很清楚:机器人研究继续围绕VLA、长时程和灵巧操作推进,但重点从“更大模型”转向“更完整闭环”。最强信号有三条:自动造数开始具备自复位能力,VLA开始显示天然持续学习与主动感知能力,灵巧操作则明显下沉到示教采集和接触仿真基础设施。RADAR和RoboClaw代表了闭环机器人的两种实现路径。前者把任务生成、执行、验证、复位串成自动采集系统,后者把数据采集、策略学习与部署代理统一起来。

8 tracked topics
Evolution3 signals · Continuing 2 · Shifting 1

今天的主线很清楚:机器人研究继续围绕VLA、长时程和灵巧操作推进,但重点从“更大模型”转向“更完整闭环”。最强信号有三条:自动造数开始具备自复位能力,VLA开始显示天然持续学习与主动感知能力,灵巧操作则明显下沉到示教采集和接触仿真基础设施。RADAR和RoboClaw代表了闭环机器人的两种实现路径。前者把任务生成、执行、验证、复位串成自动采集系统,后者把数据采集、策略学习与部署代理统一起来。

3 signals3 history windows

与前几天相比,今天最明显的变化是:机器人研究继续围绕 VLA、长时程与灵巧操作展开,但焦点更偏真实闭环。自动造数不再只是扩数据,而是加入复位与恢复。VLA 不只建模未来,也开始强调持续适应和主动看。灵巧操作则进一步下沉到示教采集和接触仿真这些基础设施层。

自进化数据引擎继续推进到真实闭环

Continuing

相对 机器人VLA走向自动造数、后训练增强与交互式世界模型 (2026-03-09) 中的 Seed2Scale 与 机器人VLA转向灵巧操作、长时程恢复与多任务部署 (2026-03-10) 对“长时程恢复”的强调,今天这条线继续增强,而且更靠近真实机器人闭环。RADAR 把自动造数拆成规划、执行、VQA 验证和因果复位四段,只需 2–5 个 3D 演示就能启动,仿真长时程任务最高 90%。RoboClaw 则把恢复机制前置到生命周期里,真实长时程任务成功率提升 25%,人工时间下降 53.7%。这说明“自动造数”已从数据扩写,推进到带复位与失败恢复的在线生产系统。

VLA主线从未来预测转向稳定适应与主动观察

Shifting
相对 VLA转向未来动力学、运行时增强与接触密集操作 (2026-03-11) 中 DiT4DiT 与 FutureVLA 代表的“未来动力学成为VLA骨干”,今天重心从显式预测未来,转向让现有 VLA 更稳地持续适应与主动观察。Simple Recipe Works 显示 Seq. FT + LoRA + on-policy RL 在…Read full rationaleCollapse

相对 VLA转向未来动力学、运行时增强与接触密集操作 (2026-03-11) 中 DiT4DiT 与 FutureVLA 代表的“未来动力学成为VLA骨干”,今天重心从显式预测未来,转向让现有 VLA 更稳地持续适应与主动观察。Simple Recipe Works 显示 Seq. FT + LoRA + on-policy RL 在 libero-long-horizon 上达到 89.8% AVG、NBT -2.4、ZS 86.6%,几乎贴近 oracle 的 90.5%。SaPaVe 则用相机/操作解耦,把真实机器人主动操作成功率推到 85.0%,高于 π0 的 45.0% 和 GR00T-N1 的 53.75%。变化不在“是否建模未来”,而在“如何把适应与观察直接做成稳定能力”。

灵巧操作热度延续,但抓手更偏基础设施

Continuing
灵巧操作仍是连续三天的高频主题,但证据重点继续从模型结构走向工程闭环。对比 机器人VLA转向灵巧操作、长时程恢复与多任务部署 (2026-03-10) 里 Cross-Hand Latent Representation 与 DexHiL 的表示共享和人在回路后训练,今天 HumDex 先从示教入口下手:采集 60 段数据时间从…Read full rationaleCollapse

灵巧操作仍是连续三天的高频主题,但证据重点继续从模型结构走向工程闭环。对比 机器人VLA转向灵巧操作、长时程恢复与多任务部署 (2026-03-10) 里 Cross-Hand Latent Representation 与 DexHiL 的表示共享和人在回路后训练,今天 HumDex 先从示教入口下手:采集 60 段数据时间从 59.8 分钟降到 44.3 分钟,策略成功率从 57.5% 升到 80.0%,Scan&Pack 遥操作更从 0/60 到 54/60。再对照 VLA转向未来动力学、运行时增强与接触密集操作 (2026-03-11) 对接触密集操作的关注,ComFree-Sim 补上仿真后端,在密集接触下给出 2–3× 吞吐与近线性扩展。趋势在延续,但抓手已从“怎么学”转向“怎么更高效地采、仿、控”。

闭环数据引擎与自重置机器人流程

机器人数据获取继续从“人工录制”转向“自循环生产”,但这一波更强调真实闭环。RADAR 只用 2–5 个 3D 演示就能启动自动采集,并把任务规划、执行验证、逆向复位串成完整流水线;仿真长时程任务成功率最高到 90%。RoboClaw 则把同一套代理同时用于采集、训练和部署,用成对的执行/复位策略持续回收数据,在真实长时程任务上把成功率提升 25%,人工时间下降 53.7%。这说明自动造数正在从“离线扩写”走向“在线自重置、自恢复、自增广”。

Representative sources

VLA走向持续学习与主动感知

今天最强的 VLA 信号不是更大的模型,而是更稳的适应机制。Simple Recipe Works 表明,大型预训练 VLA 在持续强化学习里,简单顺序微调配合 LoRA 与 on-policy RL 就能很强:在 libero-spatial 上 AVG 81.2%,在 libero-object 上 93.2%,在 libero-long-horizon 上 89.8%,且 NBT 低到 0.3、1.0,甚至达到 -2.4 的负遗忘。另一条线来自 SaPaVe:它把“看”和“动”解耦,让主动感知变成可训练能力,在真实机器人上达到 85.0%,明显高于 π0 的 45.0% 和 GR00T-N1 的 53.75%。VLA 正在从静态感知器变成能持续学习、主动调整视角的执行体。

Representative sources

灵巧操作转向可采集性与接触基础设施

灵巧操作这条线更务实了。一类工作在补数据入口:HumDex 用 IMU 全身遥操作避开遮挡,60 段示教采集时间从 59.8 分钟降到 44.3 分钟,遥操作成功率从 74.6% 升到 91.7%,高遮挡 Scan&Pack 任务更从 0/60 提到 54/60。另一类工作在补基础设施:ComFree-Sim 用解析式接触求解替代迭代优化,在密集接触下给出 2–3× 吞吐和近线性扩展,同时把平均穿透压到 0.9±1.5 mm 这一量级。焦点已不只是“学会做”,而是“更快采集、更稳仿真、更能落地”。

Representative sources

世界模型与开放世界空间感知补底座

除操作本身外,世界建模与空间表征也在补齐具身系统的底层能力。Temporal Straightening 通过让潜在轨迹更“直”,把梯度规划成功率提升 20–60%,MPC 提升 20–30%,说明世界模型开始直接为规划几何服务。O3N 则面向开放世界 360° 感知,在 QuadOcc 上达到 16.54 mIoU / 21.16 Novel mIoU,并带来 +2.21 mIoU 与 +3.01 Novel mIoU 提升。一个偏规划,一个偏感知,但共同指向更完整的具身底座。

Representative sources

Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.

NewerMCP代理基础设施与生产治理同步升温Older代码智能走向过程学习,软件代理转向真实评测与可审计执行