Recoleta Item Note
FG-CLTP: Fine-Grained Contrastive Language Tactile Pretraining for Robotic Manipulation
FG-CLTP提出一种把3D触觉点云与带数字令牌的语言对齐的预训练框架,用于让机器人不仅理解“接触是什么样”,还理解“接触有多大、多深、朝哪个方向”。它同时配套了一个10万级Contact3D数据集和下游3D-TLA策略,用于接触密集型操作。
Summary
FG-CLTP提出一种把3D触觉点云与带数字令牌的语言对齐的预训练框架,用于让机器人不仅理解“接触是什么样”,还理解“接触有多大、多深、朝哪个方向”。它同时配套了一个10万级Contact3D数据集和下游3D-TLA策略,用于接触密集型操作。
Problem
- 现有触觉-语言表示大多停留在定性描述,如“硬”“粗糙”“按得很深”,却难以表达机器人控制真正需要的定量接触状态,如力大小、接触深度、位置和主轴方向。
- 2D触觉图像表示往往强依赖传感器外观与照明,跨传感器泛化差,不利于统一的机器人基础模型。
- 缺少既覆盖多维接触物理量、又适合语言对齐和策略学习的大规模触觉数据,这限制了精细操作能力与sim2real迁移。
Approach
- 构建Contact3D数据集:包含100k触觉-语言样本、136个物体、4种传感器,每个样本含3D形变点云、触觉图像、力/力矩和接触状态标注。
- 以3D触觉点云作为统一表示,避免2D触觉图像中的传感器特有伪影,强调几何形变与剪切等物理线索。
- 提出离散数字令牌化:把连续接触属性(如深度、面积、位置、主轴角度)分箱后写入语言提示词,使模型把“数字物理量”与“语言语义”对齐。
- 用对比学习联合对齐触觉点云、语言和触觉图像;冻结原有CLIP词表,仅学习新增数字token,减少遗忘。
- 加入辅助回归损失直接监督深度、位置、主轴等连续物理量;并在下游提出3D-TLA,将该表示接入基于flow matching的VLA策略进行动作生成。
Results
- 论文摘要声称,FG-CLTP在接触状态理解上达到95.9% classification accuracy,并且相对SOTA将回归MAE降低52.6%。
- 在线性探针分类实验中,模型达到**90.6%的形状分类准确率,以及97.6%的深度分类和97.6%**的位置分类准确率。
- 论文声称基于3D点云表示实现了3.5% sim-to-real gap,并具备更强的跨传感器泛化;但给定摘录中未展开更细的实验表格与对比细节。
- 数据规模方面,Contact3D覆盖136 objects、100k samples,相较表中TCL3D的117 objects / 50k、TacQuad的124 objects / 72k更大更全。
- 回归表摘录显示,FG-CLTP比较的基线包括TVL、AnyTouch、UniTouch、CLTP;完整FG-CLTP逐项数值在提供文本中被截断,但作者明确宣称其整体最优。
- 下游操作实验部分,作者声称在contact-rich manipulation tasks上显著优于强基线,但当前提供内容未包含具体成功率数字、任务名和统计显著性数值。
Link
Built with Recoleta
Run your own research radar
Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.