Recoleta Item Note

Safe-Night VLA: Seeing the Unseen via Thermal-Perceptive Vision-Language-Action Models for Safety-Critical Manipulation

本文提出 Safe-Night VLA,把热红外感知接入预训练视觉-语言-动作模型,并在执行时加入控制屏障函数安全过滤器,用于安全关键的操作任务。它的核心价值是在弱光、遮挡、镜像欺骗和分布外场景下,让机器人利用“看不见”的热信息进行更稳健且受约束的操控。

vision-language-actionthermal-perceptionsafe-roboticsmultimodal-manipulationcontrol-barrier-functions

本文提出 Safe-Night VLA,把热红外感知接入预训练视觉-语言-动作模型,并在执行时加入控制屏障函数安全过滤器,用于安全关键的操作任务。它的核心价值是在弱光、遮挡、镜像欺骗和分布外场景下,让机器人利用“看不见”的热信息进行更稳健且受约束的操控。

  • 现有 VLA 主要依赖 RGB,无法直接感知温度、埋藏目标等不可见物理状态,因此在热相关或遮挡任务中容易失败。
  • 端到端生成式策略缺少运行时安全约束,在 OOD 场景、障碍物或工作空间边界附近可能输出危险动作。
  • 这很重要,因为真实机器人部署常处于弱光、非结构化、存在光学假象和未知干扰的环境,既要看懂任务,也要避免碰撞。
  • 基于 GR00T-N1.5-3B 搭建框架,把 RGB、LWIR thermal、depth 三种视角作为独立图像 token 输入冻结的视觉-语言主干;热图和深度图都转成 3 通道伪彩色,从而复用 RGB 预训练编码器。
  • 采用参数高效适配:冻结视觉编码器和语言模型,只训练动作头(VLM projector + 16-layer DiT),让模型在保留原有语义能力的同时学会热感知操控。
  • 非对称数据增强削弱对 RGB 的依赖:训练时仅对 RGB 加强亮度、颜色抖动、噪声和裁剪扰动,鼓励策略更多依赖热和深度等更稳健模态。
  • 在执行层把高层动作意图与低层安全解耦:VLA 先输出 6DoF 末端位姿增量和夹爪命令,再由 CBF-QP 安全过滤器在关节空间求解最接近期望、但满足碰撞约束和关节限位的安全动作。
  • 通过三个物理评测场景验证:温度条件操作埋藏热目标定位镜像反射消歧,同时测试正常光照与 dim/night 条件,以及是否启用安全过滤器。
  • 数据与设置:作者在 Franka Panda 上采集 600 条示教,每条约 200 个 state-action 对;训练 5,000 steps;比较 RGB-Only / RGB-D / RGB-T / Ours(RGB-T-D) 四个独立训练模型。
  • 温度条件操作(50 次试验):正常光、无安全过滤时,RGB-Only 32%,RGB-D 24%,RGB-T 78%,Ours 72%;正常光、有过滤时,RGB-T 86%、Ours 82%。在 dim/night + safety 下,Ours 达 64%,优于 RGB-T 22%、RGB-D 12%、RGB-Only 0%
  • 埋藏热目标定位(50 次试验):正常光、有过滤时,Ours 78%,高于 RGB-T 66%、RGB-D 24%、RGB-Only 16%;在 dim/night + safety 下,Ours 72%,高于 RGB-T 48%,而 RGB-D 与 RGB-Only 几乎失效(2% / 0%)。
  • 镜像反射消歧(每子任务 20 次):在正常光、有过滤时,Mirror Rejection Success 分别为 RGB-Only 12/20、RGB-D 11/20、RGB-T 19/20、Ours 15/20;在 dim/night + safety 下,Ours 达 17/20,高于 RGB-T 15/20、RGB-Only 13/20、RGB-D 11/20
  • 单箱体子任务dim/night + safety 下,Ours 为 18/20,略高于 RGB-T 17/20,明显高于 RGB-Only / RGB-D 的 9/20 / 9/20,说明深度在弱光下提供了额外几何稳定性。
  • 总体主张:热模态对“热/冷区分”和“埋藏目标定位”是关键,CBF 安全过滤器能进一步减少执行级失败;作者据此声称 foundation model 可以有效利用非可见物理模态完成更稳健的安全关键操控。
Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.