Recoleta Item Note

Observing and Controlling Features in Vision-Language-Action Models

本文提出一个用于视觉-语言-动作模型（VLA）的内部可解释与可控框架：先“观察”隐藏特征，再用最小线性干预去“控制”这些特征。核心目标是在不微调模型的前提下，实时引导机器人行为，同时尽量保持原有闭环能力与自然动作。

vision-language-actionmechanistic-interpretabilityactivation-steeringrepresentation-controlopenvlarobot-policy

Summary

本文提出一个用于视觉-语言-动作模型（VLA）的内部可解释与可控框架：先“观察”隐藏特征，再用最小线性干预去“控制”这些特征。核心目标是在不微调模型的前提下，实时引导机器人行为，同时尽量保持原有闭环能力与自然动作。

提出两个形式化概念：feature-observability（某层隐藏状态里能否读出目标特征）与 feature-controllability（能否通过修改某层隐藏状态把特征推到目标区间）。
用一个线性observer/probe从Transformer某层激活中预测机器人状态或动作特征；论文主要关注末端位姿、姿态与夹爪状态/动作等可测可控变量。
用一个最小范数线性干预：在隐藏表示上加一个偏移向量，使经observer读出的特征落入期望区间；当observer是线性的且目标是一维区间时，干预有闭式解。
将observer与controller嵌入推理时前向传播，在选定层在线执行，形成无需再训练/微调的闭环 steering 机制。
方法在两类VLA上验证：OpenVLA（Transformer-based）与 π₀.₅（Transformer + flow-matching hybrid）。

论文明确声称：在 Libero / π₀.₅ 与 BridgeData V2 / OpenVLA 上，机器人状态和动作可由线性probe从表示空间中观测出来，且这些观测对小扰动具有鲁棒性。
论文声称：通过目标化、轻量级的线性干预，可以可靠地引导机器人行为，并且保留闭环能力，实现无需微调的在线对齐。
论文还声称：该方法支持实时地按用户偏好和任务要求对VLA进行对齐，且额外运行时开销很小/可忽略，因为observer与controller都采用线性计算和闭式控制解。
该摘录没有给出完整的定量结果数字（如成功率、误差、相对基线提升百分比）；只提到图3展示了与“均值预测/多数类预测”基线的比较、图4展示了不同层干预对动作（如delta yaw）的影响，但具体数值在摘录中缺失。
因此，最强的具体结论是：线性可观测 + 最小线性可控在两种代表性VLA架构上成立，并可用于在线、无微调的行为转向。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.