Recoleta Item Note

Safe-Night VLA: Seeing the Unseen via Thermal-Perceptive Vision-Language-Action Models for Safety-Critical Manipulation

本文提出 Safe-Night VLA，把热红外感知接入预训练视觉-语言-动作模型，并在执行时加入控制屏障函数安全过滤器，用于安全关键的操作任务。它的核心价值是在弱光、遮挡、镜像欺骗和分布外场景下，让机器人利用“看不见”的热信息进行更稳健且受约束的操控。

Embodied AI

vision-language-actionthermal-perceptionsafe-roboticsmultimodal-manipulationcontrol-barrier-functions

Open arXiv Source markdown

Summary

Problem

现有 VLA 主要依赖 RGB，无法直接感知温度、埋藏目标等不可见物理状态，因此在热相关或遮挡任务中容易失败。
端到端生成式策略缺少运行时安全约束，在 OOD 场景、障碍物或工作空间边界附近可能输出危险动作。
这很重要，因为真实机器人部署常处于弱光、非结构化、存在光学假象和未知干扰的环境，既要看懂任务，也要避免碰撞。

Approach

基于 GR00T-N1.5-3B 搭建框架，把 RGB、LWIR thermal、depth 三种视角作为独立图像 token 输入冻结的视觉-语言主干；热图和深度图都转成 3 通道伪彩色，从而复用 RGB 预训练编码器。
采用参数高效适配：冻结视觉编码器和语言模型，只训练动作头（VLM projector + 16-layer DiT），让模型在保留原有语义能力的同时学会热感知操控。
用非对称数据增强削弱对 RGB 的依赖：训练时仅对 RGB 加强亮度、颜色抖动、噪声和裁剪扰动，鼓励策略更多依赖热和深度等更稳健模态。
在执行层把高层动作意图与低层安全解耦：VLA 先输出 6DoF 末端位姿增量和夹爪命令，再由 CBF-QP 安全过滤器在关节空间求解最接近期望、但满足碰撞约束和关节限位的安全动作。
通过三个物理评测场景验证：温度条件操作、埋藏热目标定位、镜像反射消歧，同时测试正常光照与 dim/night 条件，以及是否启用安全过滤器。

Results

数据与设置：作者在 Franka Panda 上采集 600 条示教，每条约 200 个 state-action 对；训练 5,000 steps；比较 RGB-Only / RGB-D / RGB-T / Ours(RGB-T-D) 四个独立训练模型。
温度条件操作（50 次试验）：正常光、无安全过滤时，RGB-Only 32%，RGB-D 24%，RGB-T 78%，Ours 72%；正常光、有过滤时，RGB-T 86%、Ours 82%。在 dim/night + safety 下，Ours 达 64%，优于 RGB-T 22%、RGB-D 12%、RGB-Only 0%。
埋藏热目标定位（50 次试验）：正常光、有过滤时，Ours 78%，高于 RGB-T 66%、RGB-D 24%、RGB-Only 16%；在 dim/night + safety 下，Ours 72%，高于 RGB-T 48%，而 RGB-D 与 RGB-Only 几乎失效（2% / 0%）。
镜像反射消歧（每子任务 20 次）：在正常光、有过滤时，Mirror Rejection Success 分别为 RGB-Only 12/20、RGB-D 11/20、RGB-T 19/20、Ours 15/20；在 dim/night + safety 下，Ours 达 17/20，高于 RGB-T 15/20、RGB-Only 13/20、RGB-D 11/20。
单箱体子任务在 dim/night + safety 下，Ours 为 18/20，略高于 RGB-T 17/20，明显高于 RGB-Only / RGB-D 的 9/20 / 9/20，说明深度在弱光下提供了额外几何稳定性。
总体主张：热模态对“热/冷区分”和“埋藏目标定位”是关键，CBF 安全过滤器能进一步减少执行级失败；作者据此声称 foundation model 可以有效利用非可见物理模态完成更稳健的安全关键操控。

Link

http://arxiv.org/abs/2603.05754v1

Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.

View repo 5-minute quickstart