Trend brief · 2026-03-10

机器人VLA转向灵巧操作、长时程恢复与多任务部署

今天的机器人研究很集中:大家不再只争论更大的端到端VLA,而是在补它真正落地时最容易失效的几块,尤其是灵巧操作、长时程控制、失败恢复和多任务部署。一个很强的信号是,灵巧操作正在成为VLA的新主战场。XL-VLA试图解决不同灵巧手动作空间彼此割裂的问题。它把动作先映射到共享潜在空间,再解码回具体手型,在4种灵巧手、10个任务上把总体成功率从约0.32提升到0.72。

6 tracked topics
Evolution4 signals · Continuing 2 · Shifting 1 · Emerging 1

今天的机器人研究很集中:大家不再只争论更大的端到端VLA,而是在补它真正落地时最容易失效的几块,尤其是灵巧操作、长时程控制、失败恢复和多任务部署。一个很强的信号是,灵巧操作正在成为VLA的新主战场。XL-VLA试图解决不同灵巧手动作空间彼此割裂的问题。它把动作先映射到共享潜在空间,再解码回具体手型,在4种灵巧手、10个任务上把总体成功率从约0.32提升到0.72。

4 signals2 history windows

与近几天相比,机器人VLA没有降温,但关注点更具体了。当前窗口里,长时序、后训练和轻量适配都还在继续,不过最明显的变化是:论文开始把这些能力直接落到灵巧操作、失败恢复和多任务运维上,而不再停留在通用框架层。

长时序能力继续升温,但重心从记忆插件转向动作生成机制

Continuing

延续了prev_2里对长时序能力的关注,但今天从“插件式记忆”进一步走向可执行控制结构。AR-VLA把动作专家改成真正自回归序列生成,在BridgeV2训练、SimplerEnv评测下做到61.5%,高于CogACT的52.1%,并在carrot任务上达54.2%,明显高于Pi-0-Fast的29.2%。相较prev_2中以TempoFit为代表的缓存增强思路,今天的方法更强调历史驱动的连续控制本体。

VLA后训练从世界模型奖励塑形转向人在回路纠错

Shifting

相较prev_1里AtomVLA所代表的“后训练依赖预测式潜在世界模型奖励”,今天后训练更偏向真人纠错与在线恢复。DexHiL用60条离线轨迹预热,再每轮新增10条在线轨迹,3轮后在Tissue Extraction上达到95%,高于离线基线75%;在Plush Toy Grasping上65%,高于离线基线35%。这说明VLA后训练的主线正在从离线奖励塑形,转向真实执行中的高价值干预片段。

灵巧手与接触丰富操作成为新前台

Emerging

今天新出现的强信号是灵巧操作被当作VLA扩展的核心场景,而不只是通用抓放的边缘分支。XL-VLA构建4种灵巧手、10个任务、2000条示教的数据集,并用共享潜在动作空间把总体成功率从约0.32提升到0.72;SELF-VLA在CPU拆解上把端到端最佳2/20提升到17/20。相比prev_1与prev_2更偏通用操作、数据引擎和轻量适配,今天的突破更直接面向高维手部与接触丰富工业任务。

参数高效适配继续推进,并转向多任务运维问题

Continuing

延续prev_2“轻改造、强适配”的方向,但今天开始出现更明确的部署与生命周期设计。CORAL冻结0.8B主干,只为每任务保存约26MB的rank-16 LoRA专家,40任务专家库约1GB,切换时间约100ms,同时在LIBERO上达到99.3%。这比prev_2中围绕适配效率的讨论更进一步,已经把多任务扩展、抗遗忘和边缘存储一起纳入系统目标。

灵巧操作进入“跨手共享表示 + 人在回路后训练”阶段

灵巧操作论文明显增多,而且不再只讨论“把手控好”。更强的方向是先把动作空间、后训练和纠错链路做成可扩展系统。XL-VLA把4种灵巧手映射到共享潜在动作空间,在真实世界10个任务、2000条示教上,把总体成功率从约0.32拉到0.72。DexHiL则把人工接管引入VLA后训练,在Tissue Extraction上做到95%,高于离线基线75%。这说明灵巧操作正在从单手单任务调参,转向跨手复用与在线纠偏。

Representative sources

长时程控制从“加记忆”走向“显式进度与恢复”

今天有多篇工作在补VLA的时序短板,但方法比前几天更落地。AR-VLA把动作建模成真正跨时间的自回归序列,用混合缓存处理慢感知与快控制,在SimplerEnv平均61.5%,高于CogACT的52.1%。SPR则把“任务做到哪一步”显式化为2D子目标和回退机制,在LIBERO上到90.6%,真实机器人3项任务里把Pick up从50%提到70%。这类工作不再只加记忆,而是把进度、恢复和历史依赖变成可执行控制结构。

Representative sources

结构化VLA加速落地:符号计划与LoRA专家并行升温

另一条清晰主线是给VLA加结构,而不是继续堆更大端到端黑盒。NS-VLA引入符号primitive、单调计划约束和在线强化学习,在LIBERO 1-shot上达到69.1%,明显高于OpenVLA的35.7%。CORAL则把多任务学习改成冻结主干、按任务挂LoRA专家,在LIBERO 40任务上做到99.3%,并把单个专家压到约26MB。这里的共同点是:结构化先验开始被用来解决样本效率、负迁移和部署扩展。

Representative sources

模块化与技能库方案回暖,面向零数据部署和工业接触任务

除端到端VLA外,模块化机器人系统也在回升。TiPToP把基础视觉模型和GPU任务-运动规划结合起来,零机器人训练数据下,在165次桌面任务试验中取得59.4%成功率,超过用350小时机体数据微调的π0.5-DROID的33.3%。SELF-VLA则在工业拆解里把VLA负责靠近与决策、显式技能负责关键接触动作,CPU extraction达到17/20,远高于端到端最佳2/20。趋势不是回到老式流水线,而是更务实地重组“感知-规划-技能”分工。

Representative sources

Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.

Newer软件工程代理转向真实评测,证据驱动流程与协议安全同步升温Older代码代理走向可验证闭环,安全审计与研发自动化同步升温