Recoleta Item Note
DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control
DiT4DiT提出把视频生成模型与动作生成模型端到端联合训练,用视频扩散过程中的中间时空特征来指导机器人动作预测。核心观点是:学习“未来会如何变化”的视频动力学,比只靠静态视觉语义更适合作为通用机器人控制的基础。
Summary
DiT4DiT提出把视频生成模型与动作生成模型端到端联合训练,用视频扩散过程中的中间时空特征来指导机器人动作预测。核心观点是:学习“未来会如何变化”的视频动力学,比只靠静态视觉语义更适合作为通用机器人控制的基础。
Problem
- 现有VLA/机器人基础模型大多继承静态图文预训练表征,缺少对时序变化和物理动力学的原生建模,因此控制能力强依赖昂贵的动作标注数据。
- 以往把视频模型用于机器人控制的方法,常是多阶段流程:先做视频/表征学习,再单独训练动作模型,导致信息传递间接、训练不统一。
- 论文要解决的是:如何把视频生成真正变成机器人策略学习的核心骨干,并证明它为什么能提升泛化、数据效率和真实部署表现。
Approach
- 使用一个统一的双DiT架构:一个Video Diffusion Transformer预测未来视频动力学,另一个Action Diffusion Transformer预测动作轨迹。
- 关键机制不是用最终重建出的未来帧,而是从视频去噪过程中的中间隐藏状态提取特征,把这些 temporally grounded 的表征作为动作模型的条件输入。
- 提出dual flow-matching联合目标,同时训练视频生成与动作生成;两者共享一个统一框架,但各自有独立噪声与流时间步。
- 采用tri-timestep / decoupled timestep设计:视频模块用均匀采样时间步学习完整去噪轨迹;特征提取用固定时间步保证稳定条件;动作模块用Beta分布时间步强调关键控制阶段。
- 初始化上,视频骨干来自Cosmos-Predict2.5-2B,动作头基于GR00T系Action DiT,并冻结文本编码器与VAE,仅联合微调两个DiT模块。
Results
- 在LIBERO仿真基准上,DiT4DiT达到98.6%平均成功率,文中称为新的SOTA,并指出在长时程任务上优于π0.5与CogVLA等强VLA基线。
- 在RoboCasa GR1 24个桌面任务上,达到50.8%平均成功率,文中称显著超过GR00T系列等预训练策略。
- 作为“视频生成是更好缩放代理任务”的验证,在RoboCasa GR1上相较于Grounding和FLARE-style语义中心基线,样本效率提升超过10×,收敛速度最高提升7×。
- 在真实Unitree G1机器人上,论文声称优于预训练基线GR00T-N1.5和参数量匹配基线,并且仅用单个第一视角相机即可完成高精度任务;但摘录中未提供具体真实世界数值指标。
- 论文还声称具备强zero-shot泛化,能适应未见物体、类别变化和数量变化,覆盖仿真与真实环境;摘录中同样未给出量化泛化分数。
Link
Built with Recoleta
Run your own research radar
Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.