Trend brief · 2026-03-11

VLA转向未来动力学、运行时增强与接触密集操作

今天的机器人论文很集中,主线不是更大的通用模型,而是让VLA更会“预见”、更能落地,也更擅长接触密集型操作。最强信号来自两篇未来建模工作。DiT4DiT和FutureVLA都不再满足于静态视觉表征,而是把“动作之后世界会怎样变化”直接做进控制模型。前者把视频扩散与动作扩散联合训练,在LIBERO达到98.6%;后者把视觉约束与动作动力学分流建模,在LIBEROLong达到96.

6 tracked topics
Evolution3 signals · Continuing 1 · Shifting 1 · Emerging 1

今天的机器人论文很集中,主线不是更大的通用模型,而是让VLA更会“预见”、更能落地,也更擅长接触密集型操作。最强信号来自两篇未来建模工作。DiT4DiT和FutureVLA都不再满足于静态视觉表征,而是把“动作之后世界会怎样变化”直接做进控制模型。前者把视频扩散与动作扩散联合训练,在LIBERO达到98.6%;后者把视觉约束与动作动力学分流建模,在LIBEROLong达到96.

3 signals3 history windows

与近几天相比,今天最明显的变化有两条。第一,灵巧操作仍是主线,但研究对象更靠近接触物理本身。第二,VLA增强明显从训练期技巧,转向运行时插件与未来动力学骨干。

灵巧操作持续升温,并向接触物理层深入

Continuing

相较prev_1里XL-VLA与DexHiL强调“跨手共享表示 + 人在回路后训练”,今天灵巧操作主线没有降温,但重心继续下沉到接触层。CCGE把探索奖励直接绑定到手指-物体区域接触覆盖;FG-CLTP进一步把接触深度、位置和主轴方向写成数字令牌,与3D触觉点云对齐,在Contact3D的100k样本、136个物体、4种传感器上训练后,报告95.9%接触状态分类准确率和3.5% sim-to-real gap。这个延续说明,机器人社区仍把灵巧操作视作VLA后的关键战场,只是表征对象从动作空间共享,继续推进到接触物理本身。

VLA增强从训练后优化转向运行时系统增强

Shifting

与prev_2中AtomVLA、OmniGuide代表的“后训练增强与引导”相比,今天更多方法把增强搬到执行链路本身,而且更像即插即用组件。DepthCache不重训主干,在OpenVLA、π0.5、GR00T上实现1.07×–1.28×加速,平均成功率损失小于1%;RC-NF也不改策略本体,而是在LIBERO-Anomaly-10上做到AUC 0.9309 / AP 0.9494,并以低于100 ms延迟触发rollback或replanning。这说明关注点正从“如何把策略再训好一点”转向“如何让系统实时、可监控、可恢复地运行”。

未来预测从辅助模块变成控制核心

Emerging

今天一个更强的新信号是“未来动力学”正在替代静态视觉语义,成为控制表征核心。与prev_3里TempoFit这类时间记忆插件不同,DiT4DiT和FutureVLA都直接学习未来如何变化。DiT4DiT把视频扩散中间特征送入动作DiT,在LIBERO做到98.6%,在RoboCasa GR1达50.8%,并报告超过10×样本效率提升;FutureVLA通过Joint Visuomotor Gating把视觉约束与动作动力学分流,在LIBERO Long上达到96.0%,显著高于pi_0的85.2和WorldVLA的60.0。这里的变化不只是“加时间信息”,而是把未来预测本身做成VLA能力来源。

未来动力学成为VLA的新骨干

这组工作把“看见当前”推进到“预测后果”。DiT4DiT把视频扩散与动作扩散端到端联合训练,用视频去噪中的中间时空特征指导动作预测;FutureVLA则把视觉约束与动作动力学分流建模,再用轻量适配器蒸馏回下游VLA。共同点是都强调未来动力学而不是静态语义。结果上,DiT4DiT在LIBERO达到98.6%,在RoboCasa GR1达50.8%,并报告超过10×样本效率提升;FutureVLA在LIBERO达到98.3/98.2,在Long子集达96.0%,真实Franka四任务平均70.0%。

Representative sources

推理时插件化增强走向部署链路

今天不少论文不再改主干参数,而是把鲁棒性和效率做成外接模块。DepthCache用深度先验做免训练token合并,在3个VLA上实现1.07×–1.28×加速且平均成功率下降小于1%;CGVD在策略输入前先移除语义干扰物,在18个干扰物的Spoon on Towel任务上把成功率从43.0%提到77.5%;RC-NF则为执行期增加异常监控,在LIBERO-Anomaly-10上达到AUC 0.9309 / AP 0.9494,并报告低于100 ms响应。方向上,这些工作都服务于真实部署中的延迟、杂乱和失效恢复。

Representative sources

灵巧操作转向接触建模与少样本实用化

灵巧操作继续升温,但重点从单纯模仿转向接触、探索和少样本扩写。CCGE用“手指-物体区域接触覆盖”定义任务无关探索奖励,强调有效接触比状态新颖性更关键;FG-CLTP把3D触觉点云与带数字令牌的语言对齐,构建10万样本Contact3D数据,触觉状态理解达到95.9%,并报告3.5%的sim-to-real gap;FAR-Dex则把少样本示教扩增和残差修正结合起来,在四个任务上达到93%、83%、88%、95%,且每步推理仅3.0–4.3 ms。整体上,灵巧操作研究更贴近接触物理和真实控制约束。

Representative sources

Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.

Newer代码智能走向过程学习,软件代理转向真实评测与可审计执行Older软件工程代理转向真实评测,证据驱动流程与协议安全同步升温