Recoleta Item Note

DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control

DiT4DiT提出把视频生成模型与动作生成模型端到端联合训练，用视频扩散过程中的中间时空特征来指导机器人动作预测。核心观点是：学习“未来会如何变化”的视频动力学，比只靠静态视觉语义更适合作为通用机器人控制的基础。

vision-language-actionvideo-diffusionrobot-controlgeneralist-robot-policyworld-modelsim2real

Summary

使用一个统一的双DiT架构：一个Video Diffusion Transformer预测未来视频动力学，另一个Action Diffusion Transformer预测动作轨迹。
关键机制不是用最终重建出的未来帧，而是从视频去噪过程中的中间隐藏状态提取特征，把这些 temporally grounded 的表征作为动作模型的条件输入。
提出dual flow-matching联合目标，同时训练视频生成与动作生成；两者共享一个统一框架，但各自有独立噪声与流时间步。
采用tri-timestep / decoupled timestep设计：视频模块用均匀采样时间步学习完整去噪轨迹；特征提取用固定时间步保证稳定条件；动作模块用Beta分布时间步强调关键控制阶段。
初始化上，视频骨干来自Cosmos-Predict2.5-2B，动作头基于GR00T系Action DiT，并冻结文本编码器与VAE，仅联合微调两个DiT模块。

在LIBERO仿真基准上，DiT4DiT达到98.6%平均成功率，文中称为新的SOTA，并指出在长时程任务上优于π0.5与CogVLA等强VLA基线。
在RoboCasa GR1 24个桌面任务上，达到50.8%平均成功率，文中称显著超过GR00T系列等预训练策略。
作为“视频生成是更好缩放代理任务”的验证，在RoboCasa GR1上相较于Grounding和FLARE-style语义中心基线，样本效率提升超过10×，收敛速度最高提升7×。
在真实Unitree G1机器人上，论文声称优于预训练基线GR00T-N1.5和参数量匹配基线，并且仅用单个第一视角相机即可完成高精度任务；但摘录中未提供具体真实世界数值指标。
论文还声称具备强zero-shot泛化，能适应未见物体、类别变化和数量变化，覆盖仿真与真实环境；摘录中同样未给出量化泛化分数。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.