---
kind: trend
trend_doc_id: 392
granularity: day
period_start: '2026-03-11T00:00:00'
period_end: '2026-03-12T00:00:00'
topics:
- robotics
- vision-language-action
- future-modeling
- inference-time
- dexterous-manipulation
- tactile-learning
run_id: materialize-outputs
aliases:
- recoleta-trend-392
tags:
- recoleta/trend
- topic/robotics
- topic/vision-language-action
- topic/future-modeling
- topic/inference-time
- topic/dexterous-manipulation
- topic/tactile-learning
language_code: zh-CN
---

# VLA转向未来动力学、运行时增强与接触密集操作

## Overview
今天的机器人论文很集中，主线不是更大的通用模型，而是让VLA更会“预见”、更能落地，也更擅长接触密集型操作。最强信号来自两篇未来建模工作。DiT4DiT和FutureVLA都不再满足于静态视觉表征，而是把“动作之后世界会怎样变化”直接做进控制模型。前者把视频扩散与动作扩散联合训练，在LIBERO达到98.6%；后者把视觉约束与动作动力学分流建模，在LIBEROLong达到96.

## Evolution

与近几天相比，今天最明显的变化有两条。第一，灵巧操作仍是主线，但研究对象更靠近接触物理本身。第二，VLA增强明显从训练期技巧，转向运行时插件与未来动力学骨干。

### 灵巧操作持续升温，并向接触物理层深入

- 变化：延续
- 历史窗口：[机器人VLA转向灵巧操作、长时程恢复与多任务部署 (2026-03-10)](day--2026-03-10--trend--346.md), [机器人VLA走向自动造数、后训练增强与交互式世界模型 (2026-03-09)](day--2026-03-09--trend--301.md)

相较prev_1里XL-VLA与DexHiL强调“跨手共享表示 + 人在回路后训练”，今天灵巧操作主线没有降温，但重心继续下沉到接触层。CCGE把探索奖励直接绑定到手指-物体区域接触覆盖；FG-CLTP进一步把接触深度、位置和主轴方向写成数字令牌，与3D触觉点云对齐，在Contact3D的100k样本、136个物体、4种传感器上训练后，报告95.9%接触状态分类准确率和3.5% sim-to-real gap。这个延续说明，机器人社区仍把灵巧操作视作VLA后的关键战场，只是表征对象从动作空间共享，继续推进到接触物理本身。

### VLA增强从训练后优化转向运行时系统增强

- 变化：转向
- 历史窗口：[机器人VLA走向自动造数、后训练增强与交互式世界模型 (2026-03-09)](day--2026-03-09--trend--301.md), [机器人具身智能转向轻量适配、长时序增强与部署一致性 (2026-03-08)](day--2026-03-08--trend--69.md)

与prev_2中AtomVLA、OmniGuide代表的“后训练增强与引导”相比，今天更多方法把增强搬到执行链路本身，而且更像即插即用组件。DepthCache不重训主干，在OpenVLA、π0.5、GR00T上实现1.07×–1.28×加速，平均成功率损失小于1%；RC-NF也不改策略本体，而是在LIBERO-Anomaly-10上做到AUC 0.9309 / AP 0.9494，并以低于100 ms延迟触发rollback或replanning。这说明关注点正从“如何把策略再训好一点”转向“如何让系统实时、可监控、可恢复地运行”。

### 未来预测从辅助模块变成控制核心

- 变化：新出现
- 历史窗口：[机器人VLA转向灵巧操作、长时程恢复与多任务部署 (2026-03-10)](day--2026-03-10--trend--346.md), [机器人具身智能转向轻量适配、长时序增强与部署一致性 (2026-03-08)](day--2026-03-08--trend--69.md)

今天一个更强的新信号是“未来动力学”正在替代静态视觉语义，成为控制表征核心。与prev_3里TempoFit这类时间记忆插件不同，DiT4DiT和FutureVLA都直接学习未来如何变化。DiT4DiT把视频扩散中间特征送入动作DiT，在LIBERO做到98.6%，在RoboCasa GR1达50.8%，并报告超过10×样本效率提升；FutureVLA通过Joint Visuomotor Gating把视觉约束与动作动力学分流，在LIBERO Long上达到96.0%，显著高于pi_0的85.2和WorldVLA的60.0。这里的变化不只是“加时间信息”，而是把未来预测本身做成VLA能力来源。

## Clusters

### 未来动力学成为VLA的新骨干

这组工作把“看见当前”推进到“预测后果”。DiT4DiT把视频扩散与动作扩散端到端联合训练，用视频去噪中的中间时空特征指导动作预测；FutureVLA则把视觉约束与动作动力学分流建模，再用轻量适配器蒸馏回下游VLA。共同点是都强调未来动力学而不是静态语义。结果上，DiT4DiT在LIBERO达到98.6%，在RoboCasa GR1达50.8%，并报告超过10×样本效率提升；FutureVLA在LIBERO达到98.3/98.2，在Long子集达96.0%，真实Franka四任务平均70.0%。

#### Representative sources
- [DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control](../Inbox/2026-03-11--dit4dit-jointly-modeling-video-dynamics-and-actions-for-generalizable-robot-control.md) — Teli Ma; Jia Zheng; Zifan Wang; Chuili Jiang; Andy Cui; Junwei Liang; …
- [FutureVLA: Joint Visuomotor Prediction for Vision-Language-Action Model](../Inbox/2026-03-11--futurevla-joint-visuomotor-prediction-for-vision-language-action-model.md) — Xiaoxu Xu; Hao Li; Jinhui Ye; Yilun Chen; Jia Zeng; Xinyi Chen; …


### 推理时插件化增强走向部署链路

今天不少论文不再改主干参数，而是把鲁棒性和效率做成外接模块。DepthCache用深度先验做免训练token合并，在3个VLA上实现1.07×–1.28×加速且平均成功率下降小于1%；CGVD在策略输入前先移除语义干扰物，在18个干扰物的Spoon on Towel任务上把成功率从43.0%提到77.5%；RC-NF则为执行期增加异常监控，在LIBERO-Anomaly-10上达到AUC 0.9309 / AP 0.9494，并报告低于100 ms响应。方向上，这些工作都服务于真实部署中的延迟、杂乱和失效恢复。

#### Representative sources
- [DepthCache: Depth-Guided Training-Free Visual Token Merging for Vision-Language-Action Model Inference](../Inbox/2026-03-11--depthcache-depth-guided-training-free-visual-token-merging-for-vision-language-action-model-inference.md) — Yuquan Li; Lianjie Ma; Han Ding; Lijun Zhu
- [Overcoming Visual Clutter in Vision Language Action Models via Concept-Gated Visual Distillation](../Inbox/2026-03-11--overcoming-visual-clutter-in-vision-language-action-models-via-concept-gated-visual-distillation.md) — Sangmim Song; Sarath Kodagoda; Marc Carmichael; Karthick Thiyagarajan
- [RC-NF: Robot-Conditioned Normalizing Flow for Real-Time Anomaly Detection in Robotic Manipulation](../Inbox/2026-03-11--rc-nf-robot-conditioned-normalizing-flow-for-real-time-anomaly-detection-in-robotic-manipulation.md) — Shijie Zhou; Bin Zhu; Jiarui Yang; Xiangyu Zhao; Jingjing Chen; Yu-Gang Jiang


### 灵巧操作转向接触建模与少样本实用化

灵巧操作继续升温，但重点从单纯模仿转向接触、探索和少样本扩写。CCGE用“手指-物体区域接触覆盖”定义任务无关探索奖励，强调有效接触比状态新颖性更关键；FG-CLTP把3D触觉点云与带数字令牌的语言对齐，构建10万样本Contact3D数据，触觉状态理解达到95.9%，并报告3.5%的sim-to-real gap；FAR-Dex则把少样本示教扩增和残差修正结合起来，在四个任务上达到93%、83%、88%、95%，且每步推理仅3.0–4.3 ms。整体上，灵巧操作研究更贴近接触物理和真实控制约束。

#### Representative sources
- [Contact Coverage-Guided Exploration for General-Purpose Dexterous Manipulation](../Inbox/2026-03-11--contact-coverage-guided-exploration-for-general-purpose-dexterous-manipulation.md) — Zixuan Liu; Ruoyi Qiao; Chenrui Tie; Xuanwei Liu; Yunfan Lou; Chongkai Gao; …
- [FG-CLTP: Fine-Grained Contrastive Language Tactile Pretraining for Robotic Manipulation](../Inbox/2026-03-11--fg-cltp-fine-grained-contrastive-language-tactile-pretraining-for-robotic-manipulation.md) — Wenxuan Ma; Chaofan Zhang; Yinghao Cai; Guocai Yao; Shaowei Cui; Shuo Wang
- [FAR-Dex: Few-shot Data Augmentation and Adaptive Residual Policy Refinement for Dexterous Manipulation](../Inbox/2026-03-11--far-dex-few-shot-data-augmentation-and-adaptive-residual-policy-refinement-for-dexterous-manipulation.md) — Yushan Bai; Fulin Chen; Hongzheng Sun; Yuchuang Tong; En Li; Zhengtao Zhang