Recoleta Item Note

Observing and Controlling Features in Vision-Language-Action Models

本文提出一个用于视觉-语言-动作模型(VLA)的内部可解释与可控框架:先“观察”隐藏特征,再用最小线性干预去“控制”这些特征。核心目标是在 不微调模型 的前提下,实时引导机器人行为,同时尽量保持原有闭环能力与自然动作。

vision-language-actionmechanistic-interpretabilityactivation-steeringrepresentation-controlopenvlarobot-policy

本文提出一个用于视觉-语言-动作模型(VLA)的内部可解释与可控框架:先“观察”隐藏特征,再用最小线性干预去“控制”这些特征。核心目标是在不微调模型的前提下,实时引导机器人行为,同时尽量保持原有闭环能力与自然动作。

  • VLA虽强,但其行为常常不可预测、难以在线纠正,也可能与用户偏好或安全约束不一致。
  • 现有LLM中的activation steering思想不能直接迁移到VLA,因为VLA是多模态输入、连续动作输出、且处于闭环机器人控制中。
  • 关键问题是:能否从VLA内部表示中读出与行为相关的特征,并以轻量、精确、尽量不破坏原策略的方式在线操控这些特征?
  • 提出两个形式化概念:feature-observability(某层隐藏状态里能否读出目标特征)与 feature-controllability(能否通过修改某层隐藏状态把特征推到目标区间)。
  • 用一个线性observer/probe从Transformer某层激活中预测机器人状态或动作特征;论文主要关注末端位姿、姿态与夹爪状态/动作等可测可控变量。
  • 用一个最小范数线性干预:在隐藏表示上加一个偏移向量,使经observer读出的特征落入期望区间;当observer是线性的且目标是一维区间时,干预有闭式解
  • 将observer与controller嵌入推理时前向传播,在选定层在线执行,形成无需再训练/微调的闭环 steering 机制。
  • 方法在两类VLA上验证:OpenVLA(Transformer-based)与 π₀.₅(Transformer + flow-matching hybrid)。
  • 论文明确声称:在 Libero / π₀.₅BridgeData V2 / OpenVLA 上,机器人状态和动作可由线性probe从表示空间中观测出来,且这些观测对小扰动具有鲁棒性。
  • 论文声称:通过目标化、轻量级的线性干预,可以可靠地引导机器人行为,并且保留闭环能力,实现无需微调的在线对齐。
  • 论文还声称:该方法支持实时地按用户偏好和任务要求对VLA进行对齐,且额外运行时开销很小/可忽略,因为observer与controller都采用线性计算和闭式控制解。
  • 该摘录没有给出完整的定量结果数字(如成功率、误差、相对基线提升百分比);只提到图3展示了与“均值预测/多数类预测”基线的比较、图4展示了不同层干预对动作(如delta yaw)的影响,但具体数值在摘录中缺失。
  • 因此,最强的具体结论是:线性可观测 + 最小线性可控在两种代表性VLA架构上成立,并可用于在线、无微调的行为转向。
Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.