---
kind: trend
trend_doc_id: 346
granularity: day
period_start: '2026-03-10T00:00:00'
period_end: '2026-03-11T00:00:00'
topics:
- robotics
- vision-language-action
- dexterous-manipulation
- long-horizon-control
- post-training
- parameter-efficient-finetuning
run_id: materialize-outputs
aliases:
- recoleta-trend-346
tags:
- recoleta/trend
- topic/robotics
- topic/vision-language-action
- topic/dexterous-manipulation
- topic/long-horizon-control
- topic/post-training
- topic/parameter-efficient-finetuning
language_code: zh-CN
---

# 机器人VLA转向灵巧操作、长时程恢复与多任务部署

## Overview
今天的机器人研究很集中：大家不再只争论更大的端到端VLA，而是在补它真正落地时最容易失效的几块，尤其是灵巧操作、长时程控制、失败恢复和多任务部署。一个很强的信号是，灵巧操作正在成为VLA的新主战场。XL-VLA试图解决不同灵巧手动作空间彼此割裂的问题。它把动作先映射到共享潜在空间，再解码回具体手型，在4种灵巧手、10个任务上把总体成功率从约0.32提升到0.72。

## Evolution

与近几天相比，机器人VLA没有降温，但关注点更具体了。当前窗口里，长时序、后训练和轻量适配都还在继续，不过最明显的变化是：论文开始把这些能力直接落到灵巧操作、失败恢复和多任务运维上，而不再停留在通用框架层。

### 长时序能力继续升温，但重心从记忆插件转向动作生成机制

- 变化：延续
- 历史窗口：[机器人具身智能转向轻量适配、长时序增强与部署一致性 (2026-03-08)](day--2026-03-08--trend--69.md)

延续了prev_2里对长时序能力的关注，但今天从“插件式记忆”进一步走向可执行控制结构。AR-VLA把动作专家改成真正自回归序列生成，在BridgeV2训练、SimplerEnv评测下做到61.5%，高于CogACT的52.1%，并在carrot任务上达54.2%，明显高于Pi-0-Fast的29.2%。相较prev_2中以TempoFit为代表的缓存增强思路，今天的方法更强调历史驱动的连续控制本体。

### VLA后训练从世界模型奖励塑形转向人在回路纠错

- 变化：转向
- 历史窗口：[机器人VLA走向自动造数、后训练增强与交互式世界模型 (2026-03-09)](day--2026-03-09--trend--301.md)

相较prev_1里AtomVLA所代表的“后训练依赖预测式潜在世界模型奖励”，今天后训练更偏向真人纠错与在线恢复。DexHiL用60条离线轨迹预热，再每轮新增10条在线轨迹，3轮后在Tissue Extraction上达到95%，高于离线基线75%；在Plush Toy Grasping上65%，高于离线基线35%。这说明VLA后训练的主线正在从离线奖励塑形，转向真实执行中的高价值干预片段。

### 灵巧手与接触丰富操作成为新前台

- 变化：新出现
- 历史窗口：[机器人VLA走向自动造数、后训练增强与交互式世界模型 (2026-03-09)](day--2026-03-09--trend--301.md), [机器人具身智能转向轻量适配、长时序增强与部署一致性 (2026-03-08)](day--2026-03-08--trend--69.md)

今天新出现的强信号是灵巧操作被当作VLA扩展的核心场景，而不只是通用抓放的边缘分支。XL-VLA构建4种灵巧手、10个任务、2000条示教的数据集，并用共享潜在动作空间把总体成功率从约0.32提升到0.72；SELF-VLA在CPU拆解上把端到端最佳2/20提升到17/20。相比prev_1与prev_2更偏通用操作、数据引擎和轻量适配，今天的突破更直接面向高维手部与接触丰富工业任务。

### 参数高效适配继续推进，并转向多任务运维问题

- 变化：延续
- 历史窗口：[机器人具身智能转向轻量适配、长时序增强与部署一致性 (2026-03-08)](day--2026-03-08--trend--69.md)

延续prev_2“轻改造、强适配”的方向，但今天开始出现更明确的部署与生命周期设计。CORAL冻结0.8B主干，只为每任务保存约26MB的rank-16 LoRA专家，40任务专家库约1GB，切换时间约100ms，同时在LIBERO上达到99.3%。这比prev_2中围绕适配效率的讨论更进一步，已经把多任务扩展、抗遗忘和边缘存储一起纳入系统目标。

## Clusters

### 灵巧操作进入“跨手共享表示 + 人在回路后训练”阶段

灵巧操作论文明显增多，而且不再只讨论“把手控好”。更强的方向是先把动作空间、后训练和纠错链路做成可扩展系统。XL-VLA把4种灵巧手映射到共享潜在动作空间，在真实世界10个任务、2000条示教上，把总体成功率从约0.32拉到0.72。DexHiL则把人工接管引入VLA后训练，在Tissue Extraction上做到95%，高于离线基线75%。这说明灵巧操作正在从单手单任务调参，转向跨手复用与在线纠偏。

#### Representative sources
- [Cross-Hand Latent Representation for Vision-Language-Action Models](../Inbox/2026-03-10--cross-hand-latent-representation-for-vision-language-action-models.md) — Guangqi Jiang; Yutong Liang; Jianglong Ye; Jia-Yang Huang; Changwei Jing; Rocky Duan; …
- [DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation](../Inbox/2026-03-10--dexhil-a-human-in-the-loop-framework-for-vision-language-action-model-post-training-in-dexterous-manipulation.md) — Yifan Han; Zhongxi Chen; Yuxuan Zhao; Congsheng Xu; Yanming Shao; Yichuan Peng; …


### 长时程控制从“加记忆”走向“显式进度与恢复”

今天有多篇工作在补VLA的时序短板，但方法比前几天更落地。AR-VLA把动作建模成真正跨时间的自回归序列，用混合缓存处理慢感知与快控制，在SimplerEnv平均61.5%，高于CogACT的52.1%。SPR则把“任务做到哪一步”显式化为2D子目标和回退机制，在LIBERO上到90.6%，真实机器人3项任务里把Pick up从50%提到70%。这类工作不再只加记忆，而是把进度、恢复和历史依赖变成可执行控制结构。

#### Representative sources
- [AR-VLA: True Autoregressive Action Expert for Vision-Language-Action Models](../Inbox/2026-03-10--ar-vla-true-autoregressive-action-expert-for-vision-language-action-models.md) — Yutong Hu; Jan-Nico Zaech; Nikolay Nikolov; Yuanqi Yao; Sombit Dey; Giuliano Albanese; …
- [See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation](../Inbox/2026-03-10--see-plan-rewind-progress-aware-vision-language-action-models-for-robust-robotic-manipulation.md) — Tingjun Dai; Mingfei Han; Tingwen Du; Zhiheng Liu; Zhihui Li; Salman Khan; …


### 结构化VLA加速落地：符号计划与LoRA专家并行升温

另一条清晰主线是给VLA加结构，而不是继续堆更大端到端黑盒。NS-VLA引入符号primitive、单调计划约束和在线强化学习，在LIBERO 1-shot上达到69.1%，明显高于OpenVLA的35.7%。CORAL则把多任务学习改成冻结主干、按任务挂LoRA专家，在LIBERO 40任务上做到99.3%，并把单个专家压到约26MB。这里的共同点是：结构化先验开始被用来解决样本效率、负迁移和部署扩展。

#### Representative sources
- [NS-VLA: Towards Neuro-Symbolic Vision-Language-Action Models](../Inbox/2026-03-10--ns-vla-towards-neuro-symbolic-vision-language-action-models.md) — Ziyue Zhu; Shangyang Wu; Shuai Zhao; Zhiqiu Zhao; Shengjie Li; Yi Wang; …
- [CORAL: Scalable Multi-Task Robot Learning via LoRA Experts](../Inbox/2026-03-10--coral-scalable-multi-task-robot-learning-via-lora-experts.md) — Yuankai Luo; Woping Chen; Tong Liang; Zhenguo Li


### 模块化与技能库方案回暖，面向零数据部署和工业接触任务

除端到端VLA外，模块化机器人系统也在回升。TiPToP把基础视觉模型和GPU任务-运动规划结合起来，零机器人训练数据下，在165次桌面任务试验中取得59.4%成功率，超过用350小时机体数据微调的π0.5-DROID的33.3%。SELF-VLA则在工业拆解里把VLA负责靠近与决策、显式技能负责关键接触动作，CPU extraction达到17/20，远高于端到端最佳2/20。趋势不是回到老式流水线，而是更务实地重组“感知-规划-技能”分工。

#### Representative sources
- [TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation](../Inbox/2026-03-10--tiptop-a-modular-open-vocabulary-planning-system-for-robotic-manipulation.md) — William Shen; Nishanth Kumar; Sahit Chintalapudi; Jie Wang; Christopher Watson; Edward Hu; …
- [SELF-VLA: A Skill Enhanced Agentic Vision-Language-Action Framework for Contact-Rich Disassembly](../Inbox/2026-03-10--self-vla-a-skill-enhanced-agentic-vision-language-action-framework-for-contact-rich-disassembly.md) — Chang Liu; Sibo Tian; Xiao Liang; Minghui Zheng
