Trend brief · 2026-03-10

机器人VLA转向灵巧操作、长时程恢复与多任务部署

今天的机器人研究很集中：大家不再只争论更大的端到端VLA，而是在补它真正落地时最容易失效的几块，尤其是灵巧操作、长时程控制、失败恢复和多任务部署。一个很强的信号是，灵巧操作正在成为VLA的新主战场。XL-VLA试图解决不同灵巧手动作空间彼此割裂的问题。它把动作先映射到共享潜在空间，再解码回具体手型，在4种灵巧手、10个任务上把总体成功率从约0.32提升到0.72。

6 tracked topics

Evolution4 signals · Continuing 2 · Shifting 1 · Emerging 1

Embodied AI

robotics vision-language-action dexterous-manipulation long-horizon-control post-training parameter-efficient-finetuning

Source markdown

Overview

Evolution

4 signals2 history windows

与近几天相比，机器人VLA没有降温，但关注点更具体了。当前窗口里，长时序、后训练和轻量适配都还在继续，不过最明显的变化是：论文开始把这些能力直接落到灵巧操作、失败恢复和多任务运维上，而不再停留在通用框架层。

长时序能力继续升温，但重心从记忆插件转向动作生成机制

Continuing

History

机器人具身智能转向轻量适配、长时序增强与部署一致性 (2026-03-08)

延续了prev_2里对长时序能力的关注，但今天从“插件式记忆”进一步走向可执行控制结构。AR-VLA把动作专家改成真正自回归序列生成，在BridgeV2训练、SimplerEnv评测下做到61.5%，高于CogACT的52.1%，并在carrot任务上达54.2%，明显高于Pi-0-Fast的29.2%。相较prev_2中以TempoFit为代表的缓存增强思路，今天的方法更强调历史驱动的连续控制本体。

VLA后训练从世界模型奖励塑形转向人在回路纠错

Shifting

History

机器人VLA走向自动造数、后训练增强与交互式世界模型 (2026-03-09)

相较prev_1里AtomVLA所代表的“后训练依赖预测式潜在世界模型奖励”，今天后训练更偏向真人纠错与在线恢复。DexHiL用60条离线轨迹预热，再每轮新增10条在线轨迹，3轮后在Tissue Extraction上达到95%，高于离线基线75%；在Plush Toy Grasping上65%，高于离线基线35%。这说明VLA后训练的主线正在从离线奖励塑形，转向真实执行中的高价值干预片段。

灵巧手与接触丰富操作成为新前台

Emerging

History

机器人VLA走向自动造数、后训练增强与交互式世界模型 (2026-03-09)机器人具身智能转向轻量适配、长时序增强与部署一致性 (2026-03-08)

今天新出现的强信号是灵巧操作被当作VLA扩展的核心场景，而不只是通用抓放的边缘分支。XL-VLA构建4种灵巧手、10个任务、2000条示教的数据集，并用共享潜在动作空间把总体成功率从约0.32提升到0.72；SELF-VLA在CPU拆解上把端到端最佳2/20提升到17/20。相比prev_1与prev_2更偏通用操作、数据引擎和轻量适配，今天的突破更直接面向高维手部与接触丰富工业任务。

参数高效适配继续推进，并转向多任务运维问题

Continuing

History

机器人具身智能转向轻量适配、长时序增强与部署一致性 (2026-03-08)

延续prev_2“轻改造、强适配”的方向，但今天开始出现更明确的部署与生命周期设计。CORAL冻结0.8B主干，只为每任务保存约26MB的rank-16 LoRA专家，40任务专家库约1GB，切换时间约100ms，同时在LIBERO上达到99.3%。这比prev_2中围绕适配效率的讨论更进一步，已经把多任务扩展、抗遗忘和边缘存储一起纳入系统目标。

Clusters

灵巧操作进入“跨手共享表示 + 人在回路后训练”阶段

灵巧操作论文明显增多，而且不再只讨论“把手控好”。更强的方向是先把动作空间、后训练和纠错链路做成可扩展系统。XL-VLA把4种灵巧手映射到共享潜在动作空间，在真实世界10个任务、2000条示教上，把总体成功率从约0.32拉到0.72。DexHiL则把人工接管引入VLA后训练，在Tissue Extraction上做到95%，高于离线基线75%。这说明灵巧操作正在从单手单任务调参，转向跨手复用与在线纠偏。

Representative sources

Cross-Hand Latent Representation for Vision-Language-Action Models — Guangqi Jiang; Yutong Liang; Jianglong Ye; Jia-Yang Huang; Changwei Jing; Rocky Duan; …
DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation — Yifan Han; Zhongxi Chen; Yuxuan Zhao; Congsheng Xu; Yanming Shao; Yichuan Peng; …

长时程控制从“加记忆”走向“显式进度与恢复”

今天有多篇工作在补VLA的时序短板，但方法比前几天更落地。AR-VLA把动作建模成真正跨时间的自回归序列，用混合缓存处理慢感知与快控制，在SimplerEnv平均61.5%，高于CogACT的52.1%。SPR则把“任务做到哪一步”显式化为2D子目标和回退机制，在LIBERO上到90.6%，真实机器人3项任务里把Pick up从50%提到70%。这类工作不再只加记忆，而是把进度、恢复和历史依赖变成可执行控制结构。

Representative sources

AR-VLA: True Autoregressive Action Expert for Vision-Language-Action Models — Yutong Hu; Jan-Nico Zaech; Nikolay Nikolov; Yuanqi Yao; Sombit Dey; Giuliano Albanese; …
See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation — Tingjun Dai; Mingfei Han; Tingwen Du; Zhiheng Liu; Zhihui Li; Salman Khan; …

结构化VLA加速落地：符号计划与LoRA专家并行升温

另一条清晰主线是给VLA加结构，而不是继续堆更大端到端黑盒。NS-VLA引入符号primitive、单调计划约束和在线强化学习，在LIBERO 1-shot上达到69.1%，明显高于OpenVLA的35.7%。CORAL则把多任务学习改成冻结主干、按任务挂LoRA专家，在LIBERO 40任务上做到99.3%，并把单个专家压到约26MB。这里的共同点是：结构化先验开始被用来解决样本效率、负迁移和部署扩展。

Representative sources

NS-VLA: Towards Neuro-Symbolic Vision-Language-Action Models — Ziyue Zhu; Shangyang Wu; Shuai Zhao; Zhiqiu Zhao; Shengjie Li; Yi Wang; …
CORAL: Scalable Multi-Task Robot Learning via LoRA Experts — Yuankai Luo; Woping Chen; Tong Liang; Zhenguo Li

模块化与技能库方案回暖，面向零数据部署和工业接触任务

除端到端VLA外，模块化机器人系统也在回升。TiPToP把基础视觉模型和GPU任务-运动规划结合起来，零机器人训练数据下，在165次桌面任务试验中取得59.4%成功率，超过用350小时机体数据微调的π0.5-DROID的33.3%。SELF-VLA则在工业拆解里把VLA负责靠近与决策、显式技能负责关键接触动作，CPU extraction达到17/20，远高于端到端最佳2/20。趋势不是回到老式流水线，而是更务实地重组“感知-规划-技能”分工。

Representative sources

TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation — William Shen; Nishanth Kumar; Sahit Chintalapudi; Jie Wang; Christopher Watson; Edward Hu; …
SELF-VLA: A Skill Enhanced Agentic Vision-Language-Action Framework for Contact-Rich Disassembly — Chang Liu; Sibo Tian; Xiao Liang; Minghui Zheng

Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.

View repo 5-minute quickstart