VLA转向未来动力学、运行时增强与接触密集操作
今天的机器人论文很集中,主线不是更大的通用模型,而是让VLA更会“预见”、更能落地,也更擅长接触密集型操作。最强信号来自两篇未来建模工作。DiT4DiT和FutureVLA都不再满足于静态视觉表征,而是把“动作之后世界会怎样变化”直接做进控制模型。前者把视频扩散与动作扩散联合训练,在LIBERO达到98.6%;后者把视觉约束与动作动力学分流建模,在LIBEROLong达到96.
Evolution3 signals · Continuing 1 · Shifting 1 · Emerging 1