Trend brief · 2026-03-11

VLA转向未来动力学、运行时增强与接触密集操作

今天的机器人论文很集中，主线不是更大的通用模型，而是让VLA更会“预见”、更能落地，也更擅长接触密集型操作。最强信号来自两篇未来建模工作。DiT4DiT和FutureVLA都不再满足于静态视觉表征，而是把“动作之后世界会怎样变化”直接做进控制模型。前者把视频扩散与动作扩散联合训练，在LIBERO达到98.6%；后者把视觉约束与动作动力学分流建模，在LIBEROLong达到96.

6 tracked topics

Evolution3 signals · Continuing 1 · Shifting 1 · Emerging 1

Embodied AI

robotics vision-language-action future-modeling inference-time dexterous-manipulation tactile-learning

Source markdown

Overview

Evolution

3 signals3 history windows

与近几天相比，今天最明显的变化有两条。第一，灵巧操作仍是主线，但研究对象更靠近接触物理本身。第二，VLA增强明显从训练期技巧，转向运行时插件与未来动力学骨干。

灵巧操作持续升温，并向接触物理层深入

Continuing

History

机器人VLA转向灵巧操作、长时程恢复与多任务部署 (2026-03-10)机器人VLA走向自动造数、后训练增强与交互式世界模型 (2026-03-09)

相较prev_1里XL-VLA与DexHiL强调“跨手共享表示 + 人在回路后训练”，今天灵巧操作主线没有降温，但重心继续下沉到接触层。CCGE把探索奖励直接绑定到手指-物体区域接触覆盖；FG-CLTP进一步把接触深度、位置和主轴方向写成数字令牌，与3D触觉点云对齐，在Contact3D的100k样本、136个物体、4种传感器上训练后，报告95.9%接触状态分类准确率和3.5% sim-to-real gap。这个延续说明，机器人社区仍把灵巧操作视作VLA后的关键战场，只是表征对象从动作空间共享，继续推进到接触物理本身。

VLA增强从训练后优化转向运行时系统增强

Shifting

History

机器人VLA走向自动造数、后训练增强与交互式世界模型 (2026-03-09)机器人具身智能转向轻量适配、长时序增强与部署一致性 (2026-03-08)

与prev_2中AtomVLA、OmniGuide代表的“后训练增强与引导”相比，今天更多方法把增强搬到执行链路本身，而且更像即插即用组件。DepthCache不重训主干，在OpenVLA、π0.5、GR00T上实现1.07×–1.28×加速，平均成功率损失小于1%；RC-NF也不改策略本体，而是在LIBERO-Anomaly-10上做到AUC 0.9309 / AP 0.9494，并以低于100 ms延迟触发rollback或replanning。这说明关注点正从“如何把策略再训好一点”转向“如何让系统实时、可监控、可恢复地运行”。

未来预测从辅助模块变成控制核心

Emerging

History

机器人VLA转向灵巧操作、长时程恢复与多任务部署 (2026-03-10)机器人具身智能转向轻量适配、长时序增强与部署一致性 (2026-03-08)

今天一个更强的新信号是“未来动力学”正在替代静态视觉语义，成为控制表征核心。与prev_3里TempoFit这类时间记忆插件不同，DiT4DiT和FutureVLA都直接学习未来如何变化。DiT4DiT把视频扩散中间特征送入动作DiT，在LIBERO做到98.6%，在RoboCasa GR1达50.8%，并报告超过10×样本效率提升；FutureVLA通过Joint Visuomotor Gating把视觉约束与动作动力学分流，在LIBERO Long上达到96.0%，显著高于pi_0的85.2和WorldVLA的60.0。这里的变化不只是“加时间信息”，而是把未来预测本身做成VLA能力来源。

Clusters

未来动力学成为VLA的新骨干

这组工作把“看见当前”推进到“预测后果”。DiT4DiT把视频扩散与动作扩散端到端联合训练，用视频去噪中的中间时空特征指导动作预测；FutureVLA则把视觉约束与动作动力学分流建模，再用轻量适配器蒸馏回下游VLA。共同点是都强调未来动力学而不是静态语义。结果上，DiT4DiT在LIBERO达到98.6%，在RoboCasa GR1达50.8%，并报告超过10×样本效率提升；FutureVLA在LIBERO达到98.3/98.2，在Long子集达96.0%，真实Franka四任务平均70.0%。

Representative sources

DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control — Teli Ma; Jia Zheng; Zifan Wang; Chuili Jiang; Andy Cui; Junwei Liang; …
FutureVLA: Joint Visuomotor Prediction for Vision-Language-Action Model — Xiaoxu Xu; Hao Li; Jinhui Ye; Yilun Chen; Jia Zeng; Xinyi Chen; …

推理时插件化增强走向部署链路

今天不少论文不再改主干参数，而是把鲁棒性和效率做成外接模块。DepthCache用深度先验做免训练token合并，在3个VLA上实现1.07×–1.28×加速且平均成功率下降小于1%；CGVD在策略输入前先移除语义干扰物，在18个干扰物的Spoon on Towel任务上把成功率从43.0%提到77.5%；RC-NF则为执行期增加异常监控，在LIBERO-Anomaly-10上达到AUC 0.9309 / AP 0.9494，并报告低于100 ms响应。方向上，这些工作都服务于真实部署中的延迟、杂乱和失效恢复。

Representative sources

DepthCache: Depth-Guided Training-Free Visual Token Merging for Vision-Language-Action Model Inference — Yuquan Li; Lianjie Ma; Han Ding; Lijun Zhu
Overcoming Visual Clutter in Vision Language Action Models via Concept-Gated Visual Distillation — Sangmim Song; Sarath Kodagoda; Marc Carmichael; Karthick Thiyagarajan
RC-NF: Robot-Conditioned Normalizing Flow for Real-Time Anomaly Detection in Robotic Manipulation — Shijie Zhou; Bin Zhu; Jiarui Yang; Xiangyu Zhao; Jingjing Chen; Yu-Gang Jiang

灵巧操作转向接触建模与少样本实用化

灵巧操作继续升温，但重点从单纯模仿转向接触、探索和少样本扩写。CCGE用“手指-物体区域接触覆盖”定义任务无关探索奖励，强调有效接触比状态新颖性更关键；FG-CLTP把3D触觉点云与带数字令牌的语言对齐，构建10万样本Contact3D数据，触觉状态理解达到95.9%，并报告3.5%的sim-to-real gap；FAR-Dex则把少样本示教扩增和残差修正结合起来，在四个任务上达到93%、83%、88%、95%，且每步推理仅3.0–4.3 ms。整体上，灵巧操作研究更贴近接触物理和真实控制约束。

Representative sources

Contact Coverage-Guided Exploration for General-Purpose Dexterous Manipulation — Zixuan Liu; Ruoyi Qiao; Chenrui Tie; Xuanwei Liu; Yunfan Lou; Chongkai Gao; …
FG-CLTP: Fine-Grained Contrastive Language Tactile Pretraining for Robotic Manipulation — Wenxuan Ma; Chaofan Zhang; Yinghao Cai; Guocai Yao; Shaowei Cui; Shuo Wang
FAR-Dex: Few-shot Data Augmentation and Adaptive Residual Policy Refinement for Dexterous Manipulation — Yushan Bai; Fulin Chen; Hongzheng Sun; Yuchuang Tong; En Li; Zhengtao Zhang

Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.

View repo 5-minute quickstart