Recoleta Item Note

Tactile Modality Fusion for Vision-Language-Action Models

本文提出 TacFiLM,一种将触觉信息轻量注入视觉-语言-动作模型的后训练融合方法,用于提升接触密集型机器人操作。核心思想是不用增加输入 token,而是让预训练触觉表征去调制中间视觉特征,从而在保留原有 VLA 先验的同时增强接触感知。

vision-language-actiontactile-fusioncontact-rich-manipulationrobot-policy-finetuningfilm-conditioning

本文提出 TacFiLM,一种将触觉信息轻量注入视觉-语言-动作模型的后训练融合方法,用于提升接触密集型机器人操作。核心思想是不用增加输入 token,而是让预训练触觉表征去调制中间视觉特征,从而在保留原有 VLA 先验的同时增强接触感知。

  • 现有 VLA 模型大多依赖视觉,但在插入、插线等接触密集任务中,视觉难以可靠感知接触力、摩擦、顺应性、剪切和遮挡下的细微位姿误差。
  • 现有将触觉接入 VLA 的方法常靠 token 拼接或额外大规模多模态预训练,带来更长上下文、更高算力成本和更复杂训练流程。
  • 机器人行为模型本身训练/微调已经昂贵,因此需要一种后训练、参数高效、计算轻量的触觉融合机制。
  • 基于 OpenVLA-OFT,作者提出 TacFiLM:先用预训练触觉编码器(如 T3、Sparsh)把 DIGIT 触觉图像编码成嵌入,再用该嵌入生成 FiLM 的缩放与偏移参数。
  • 这些 FiLM 参数被插入到视觉 backbone 的中间 ViT block 中,对视觉特征做逐通道仿射调制:让“触觉信息影响视觉表示”,而不是把触觉直接拼成额外 token。
  • 这样做的直观含义是:触觉像一个全局条件信号,告诉视觉特征“当前接触状态如何”,从而帮助动作模型在接触瞬间做更细微、更稳的调整。
  • 方法不增加语言模型输入序列长度,不需要重新训练大型主干,只进行 LoRA 式参数高效微调,尽量保留原始视觉-语言先验。
  • 作者还验证了方法对不同预训练触觉表征的兼容性,说明该融合框架对触觉编码器选择较为灵活。
  • 实验覆盖 700+ 次真实机器人 rollout;其中 ID 评测 270 次、OOD 评测 225 次、消融 210 次
  • ID: Circle-Peg 3mm:TacFiLM 成功率 100.00%,优于 OpenVLA-OFT 的 86.67% 和 TactileConcat 的 96.67%;直接插入率 36.67%,高于 3.33%/16.67%;平均最大力 7.64 N,低于 14.94/9.19 N;平均时间 52.03 s,低于 92.24/75.11 s
  • ID: Circle-Peg 2mm:TacFiLM 成功率 86.67%,高于 OpenVLA-OFT 66.67% 和 TactileConcat 73.33%;平均最大力 7.22 N,低于 15.09/8.72 N;平均时间 87.11 s,低于 110.44/114.80 s
  • ID: USB-Cable-Plug:TacFiLM 成功率 73.33%,对比 OpenVLA-OFT 33.33%、TactileConcat 43.33%;直接插入率 33.33%,对比 0.00%/6.67%;时间 99.71 s,优于 164.52/135.11 s
  • ID 平均:TacFiLM 成功率 86.67%,比次优基线 TactileConcat 的 71.11%15.56 个百分点;直接插入率 31.11%,显著高于 8.89%7.78%;平均最大力 8.34 N,低于 15.01/10.29 N;平均时间 79.62 s,低于 122.40/108.34 s
  • 论文还声称在 OOD 设置下,TacFiLM 在 3mm peg insertion 上保持 100% 成功率,并将 HDMI cable plugging 成功率提升 50%;在部分任务中只需基线方法约 1/3 的作用力。给定摘录中的 OOD 表格不完整,无法逐项核对全部数值,但这些是作者明确宣称的最强结果。
Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.