Recoleta Item Note

FG-CLTP: Fine-Grained Contrastive Language Tactile Pretraining for Robotic Manipulation

FG-CLTP提出一种把3D触觉点云与带数字令牌的语言对齐的预训练框架,用于让机器人不仅理解“接触是什么样”,还理解“接触有多大、多深、朝哪个方向”。它同时配套了一个10万级Contact3D数据集和下游3D-TLA策略,用于接触密集型操作。

tactile-learningvision-language-actionrobot-manipulationsim2realcontrastive-pretraining

FG-CLTP提出一种把3D触觉点云与带数字令牌的语言对齐的预训练框架,用于让机器人不仅理解“接触是什么样”,还理解“接触有多大、多深、朝哪个方向”。它同时配套了一个10万级Contact3D数据集和下游3D-TLA策略,用于接触密集型操作。

  • 现有触觉-语言表示大多停留在定性描述,如“硬”“粗糙”“按得很深”,却难以表达机器人控制真正需要的定量接触状态,如力大小、接触深度、位置和主轴方向。
  • 2D触觉图像表示往往强依赖传感器外观与照明,跨传感器泛化差,不利于统一的机器人基础模型。
  • 缺少既覆盖多维接触物理量、又适合语言对齐和策略学习的大规模触觉数据,这限制了精细操作能力与sim2real迁移。
  • 构建Contact3D数据集:包含100k触觉-语言样本、136个物体、4种传感器,每个样本含3D形变点云、触觉图像、力/力矩和接触状态标注。
  • 3D触觉点云作为统一表示,避免2D触觉图像中的传感器特有伪影,强调几何形变与剪切等物理线索。
  • 提出离散数字令牌化:把连续接触属性(如深度、面积、位置、主轴角度)分箱后写入语言提示词,使模型把“数字物理量”与“语言语义”对齐。
  • 对比学习联合对齐触觉点云、语言和触觉图像;冻结原有CLIP词表,仅学习新增数字token,减少遗忘。
  • 加入辅助回归损失直接监督深度、位置、主轴等连续物理量;并在下游提出3D-TLA,将该表示接入基于flow matching的VLA策略进行动作生成。
  • 论文摘要声称,FG-CLTP在接触状态理解上达到95.9% classification accuracy,并且相对SOTA将回归MAE降低52.6%
  • 在线性探针分类实验中,模型达到**90.6%的形状分类准确率,以及97.6%的深度分类和97.6%**的位置分类准确率。
  • 论文声称基于3D点云表示实现了3.5% sim-to-real gap,并具备更强的跨传感器泛化;但给定摘录中未展开更细的实验表格与对比细节。
  • 数据规模方面,Contact3D覆盖136 objects100k samples,相较表中TCL3D的117 objects / 50k、TacQuad的124 objects / 72k更大更全。
  • 回归表摘录显示,FG-CLTP比较的基线包括TVL、AnyTouch、UniTouch、CLTP;完整FG-CLTP逐项数值在提供文本中被截断,但作者明确宣称其整体最优。
  • 下游操作实验部分,作者声称在contact-rich manipulation tasks上显著优于强基线,但当前提供内容未包含具体成功率数字、任务名和统计显著性数值。
Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.