Recoleta Item Note

R3DP: Real-Time 3D-Aware Policy for Embodied Manipulation

R3DP提出一种把大规模3D基础模型先验接入机器人操作策略、同时保持实时控制速度的方法。它面向具身操作中常见的3D空间理解与时延冲突问题，在模拟基准上同时提升成功率和推理效率。

embodied-manipulation3d-aware-policydiffusion-policymulti-view-fusionreal-time-inferencesim-benchmark

Summary

提出Asynchronous Fast-Slow Collaboration (AFSC)：慢分支仅在稀疏关键帧上调用预训练3D模型VGGT，提取高质量3D特征；快分支在中间帧上快速补全特征，从而避免每帧都跑重模型。
提出轻量TFPNet：利用历史帧和上一时刻3D特征，预测当前帧的实时3D特征；可理解为“用过去的信息猜当前的3D表示”，以低成本维持时序一致性。
提出MVFF多视角特征融合器：先融合每个视角的2D与3D特征，再通过PRoPE显式注入相机内参和外参，得到更一致的多视角3D表示。
将上述模块作为即插即用感知前端接入Diffusion Policy，训练时冻结VGGT和TFPNet主干，仅优化策略头，以较低计算成本引入3D先验与时序信息。

在RoboTwin的10个任务上，R3DP(4)平均成功率69.0%，对比DP-single 36.1%提升32.9个百分点，对比DP-multi 17.6%提升51.4个百分点。
R3DP(8)平均成功率65.7%，仍明显高于DP3 57.6%、DP3+DA2 28.2%和π0 59.9%。
代表性任务上，R3DP(4)达到：Block Hammer Beat 77%（DP-single/DP-multi均0%，DP3 49%），Block Handover 95%（DP-single 1%，π0 71%），Put Apple Cabinet 100%（DP3 98%）。
在透明物体相关的Tube Insert任务上，R3DP达到97%，与DP3 97%持平，但显著高于DP3+DA2 32%与π0 68%。
推理延迟方面，观察编码耗时从朴素DP+VGGT 73.1 ms降到R3DP(8) 40.3 ms，相比朴素集成减少44.8%；R3DP(4)为50.5 ms，下降30.9%。
论文核心主张是：通过把“重3D理解”与“快策略执行”解耦，R3DP在不依赖深度传感器的前提下，实现了更强3D感知、更高成功率和更低实时推理延迟。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.