Recoleta Item Note

R3DP: Real-Time 3D-Aware Policy for Embodied Manipulation

R3DP提出一种把大规模3D基础模型先验接入机器人操作策略、同时保持实时控制速度的方法。它面向具身操作中常见的3D空间理解与时延冲突问题,在模拟基准上同时提升成功率和推理效率。

embodied-manipulation3d-aware-policydiffusion-policymulti-view-fusionreal-time-inferencesim-benchmark

R3DP提出一种把大规模3D基础模型先验接入机器人操作策略、同时保持实时控制速度的方法。它面向具身操作中常见的3D空间理解与时延冲突问题,在模拟基准上同时提升成功率和推理效率。

  • 现有基于2D视觉的模仿学习策略缺少显式3D空间理解,在遮挡、接触丰富、精细对位等操作任务上容易失败。
  • 直接把大型3D基础模型逐帧接入控制环路会带来过高延迟,难以满足实时机器人控制需求。
  • 多视角输入常用简单拼接,未显式利用相机内外参与几何关系,跨视角融合不稳定。
  • 提出Asynchronous Fast-Slow Collaboration (AFSC):慢分支仅在稀疏关键帧上调用预训练3D模型VGGT,提取高质量3D特征;快分支在中间帧上快速补全特征,从而避免每帧都跑重模型。
  • 提出轻量TFPNet:利用历史帧和上一时刻3D特征,预测当前帧的实时3D特征;可理解为“用过去的信息猜当前的3D表示”,以低成本维持时序一致性。
  • 提出MVFF多视角特征融合器:先融合每个视角的2D与3D特征,再通过PRoPE显式注入相机内参和外参,得到更一致的多视角3D表示。
  • 将上述模块作为即插即用感知前端接入Diffusion Policy,训练时冻结VGGT和TFPNet主干,仅优化策略头,以较低计算成本引入3D先验与时序信息。
  • 在RoboTwin的10个任务上,R3DP(4)平均成功率69.0%,对比DP-single 36.1%提升32.9个百分点,对比DP-multi 17.6%提升51.4个百分点
  • R3DP(8)平均成功率65.7%,仍明显高于DP3 57.6%DP3+DA2 28.2%π0 59.9%
  • 代表性任务上,R3DP(4)达到:Block Hammer Beat 77%(DP-single/DP-multi均0%,DP3 49%),Block Handover 95%(DP-single 1%,π0 71%),Put Apple Cabinet 100%(DP3 98%)。
  • 在透明物体相关的Tube Insert任务上,R3DP达到97%,与DP3 97%持平,但显著高于DP3+DA2 32%π0 68%
  • 推理延迟方面,观察编码耗时从朴素DP+VGGT 73.1 ms降到R3DP(8) 40.3 ms,相比朴素集成减少44.8%R3DP(4)50.5 ms,下降30.9%
  • 论文核心主张是:通过把“重3D理解”与“快策略执行”解耦,R3DP在不依赖深度传感器的前提下,实现了更强3D感知、更高成功率和更低实时推理延迟。
Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.