Recoleta Item Note

Hyperbolic Multiview Pretraining for Robotic Manipulation

本文提出 HyperMVP,一种把机器人操作的3D多视角自监督预训练从欧氏空间扩展到双曲空间的方法,以学习更有结构的视觉表示。它还构建了大规模 3D-MOV 数据集,并在仿真与真实场景中报告了更强的泛化与鲁棒性。

robotic-manipulationself-supervised-pretraininghyperbolic-representation-learningmultiview-3dsim2real

本文提出 HyperMVP,一种把机器人操作的3D多视角自监督预训练从欧氏空间扩展到双曲空间的方法,以学习更有结构的视觉表示。它还构建了大规模 3D-MOV 数据集,并在仿真与真实场景中报告了更强的泛化与鲁棒性。

  • 现有机器人操作视觉预训练大多在欧氏空间中学习表示,平坦几何难以表达层次化、结构化的空间关系。
  • 这会限制机器人在场景扰动、跨任务和真实环境中的空间感知与泛化能力,而这正是部署到现实世界的关键。
  • 单纯扩大数据规模成本高,因此需要一种更高效地提升表示质量的方法,而不仅是继续堆数据。
  • 提出 HyperMVP:先在3D点云渲染得到的五视角正交图像上做自监督预训练,再把预训练编码器与 RVT 联合微调用于机器人操作策略学习。
  • 核心机制很简单:先用 ViT/MAE 风格编码器提取多视角特征,再把这些欧氏特征“抬升”到双曲空间(Lorentz model),让表示更容易组织出层次和结构关系。
  • 设计 GeoLink encoder,并用两个自监督约束学习双曲表示:Top-K 邻域排序相关损失保持欧氏/双曲空间中邻居次序一致,entailment loss约束全局与局部特征形成偏层次化的包含关系。
  • 预训练任务不只有常规的单视角重建,还加入跨视角重建,让模型从其他视角预测锚视角,强化3D与多视角一致性。
  • 构建 3D-MOV 作为预训练数据:共 200,052 个3D点云、约 100万 张渲染图像,包含物体、室内场景和桌面场景等四类数据;并且该方法在微调时可扩展到任意数量输入视角
  • COLOSSEUM 泛化基准上,作者声称 HyperMVP 相比此前最优基线在所有扰动设置下取得平均 33.4% 提升
  • 在 COLOSSEUM 最困难的 All Perturbations 设置中,作者报告达到 2.1× 的性能增益,说明对复杂环境扰动更稳健。
  • RLBench 多任务操作中,结合 GeoLink encoder 的 RVT 相比从头训练 RVT以及采用欧氏空间表示的方法都有显著提升,但摘要/节选中未给出具体数值
  • 真实世界实验中,论文声称 HyperMVP 也表现出较强有效性,同时保持可比或更好的泛化;但节选中没有提供明确量化指标
  • 数据规模方面,预训练使用的 3D-MOV200,052 个点云与约 1M 多视角图像;实现上预训练 100 epochs、mask ratio 0.75、图像分辨率 224×224、每个点云 5 个正交视角。
Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.