Recoleta Item Note

Hyperbolic Multiview Pretraining for Robotic Manipulation

本文提出 HyperMVP，一种把机器人操作的3D多视角自监督预训练从欧氏空间扩展到双曲空间的方法，以学习更有结构的视觉表示。它还构建了大规模 3D-MOV 数据集，并在仿真与真实场景中报告了更强的泛化与鲁棒性。

robotic-manipulationself-supervised-pretraininghyperbolic-representation-learningmultiview-3dsim2real

Summary

提出 HyperMVP：先在3D点云渲染得到的五视角正交图像上做自监督预训练，再把预训练编码器与 RVT 联合微调用于机器人操作策略学习。
核心机制很简单：先用 ViT/MAE 风格编码器提取多视角特征，再把这些欧氏特征“抬升”到双曲空间（Lorentz model），让表示更容易组织出层次和结构关系。
设计 GeoLink encoder，并用两个自监督约束学习双曲表示：Top-K 邻域排序相关损失保持欧氏/双曲空间中邻居次序一致，entailment loss约束全局与局部特征形成偏层次化的包含关系。
预训练任务不只有常规的单视角重建，还加入跨视角重建，让模型从其他视角预测锚视角，强化3D与多视角一致性。
构建 3D-MOV 作为预训练数据：共 200,052 个3D点云、约 100万 张渲染图像，包含物体、室内场景和桌面场景等四类数据；并且该方法在微调时可扩展到任意数量输入视角。

在 COLOSSEUM 泛化基准上，作者声称 HyperMVP 相比此前最优基线在所有扰动设置下取得平均 33.4% 提升。
在 COLOSSEUM 最困难的 All Perturbations 设置中，作者报告达到 2.1× 的性能增益，说明对复杂环境扰动更稳健。
在 RLBench 多任务操作中，结合 GeoLink encoder 的 RVT 相比从头训练 RVT以及采用欧氏空间表示的方法都有显著提升，但摘要/节选中未给出具体数值。
在真实世界实验中，论文声称 HyperMVP 也表现出较强有效性，同时保持可比或更好的泛化；但节选中没有提供明确量化指标。
数据规模方面，预训练使用的 3D-MOV 含 200,052 个点云与约 1M 多视角图像；实现上预训练 100 epochs、mask ratio 0.75、图像分辨率 224×224、每个点云 5 个正交视角。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.