Recoleta Item Note

SaPaVe: Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics

SaPaVe 是一个面向机器人主动感知与操作的端到端视觉-语言-动作框架，核心是将相机控制与操作控制解耦，并用两阶段训练把“先看清楚”与“再动手”结合起来。论文还同时提出了一个 20 万规模的语义相机控制数据集和首个主动操作评测基准。

Summary

将动作空间解耦为两部分：头部相机动作和其他操作动作，分别用独立 action heads 预测，减少相互干扰。
采用两阶段自底向上训练：先在 ActiveViewPose-200K 上只学语义驱动的相机运动，再用混合数据联合优化相机与操作。
用一个基于 LoRA 的 Camera Adapter 保留“如何为了任务去看”的语义相机控制先验，而不破坏原始 VLM/VLA 权重。
引入 Universal Spatial Knowledge Injection，把深度、相机内外参等 3D 几何信息编码后注入动作解码过程，提升动态视角下的空间鲁棒性。
提出 ActiveManip-Bench，用于在仿真中系统评估主动操作，覆盖 12 个任务、100 个物体、20 个场景。

在语义主动感知评测上，SaPaVe Stage 1 在 ActiveViewPose-200K 上取得 84.3% 平均成功率，超过 Gemini-2.5-Pro 的 72.7%、Multi-SpatialMLLM 的 70.2%、Qwen2.5-VL-72B 的 62.3%；相对 Gemini 提升 11.6 个百分点（文中前文也宣称最高约 16%）。
分拆看该任务：SaPaVe 在 Val/Test1/Test2 上分别为 85.5/89.1/78.3，而 Gemini-2.5-Pro 为 73.3/76.5/68.2，说明在需要更强语义推断的 Test2 上也保持领先。
在仿真 ActiveManip-Bench 上，SaPaVe（Active Camera）平均成功率 74.83%，高于 Fixed Camera 的 36.17%、Fixed Camera + Wrist Camera 的 52.33%、Active Camera + Wrist Camera 的 73.16%。
同一仿真基准中，固定视角在 Out-of-View 任务上明显失效，例如 Out-of-View Pick-and-Place 仅 11%、Out-of-View Articulated Manipulation 仅 7%；SaPaVe 分别达到 72% 和 68%。
图注声称在 ActiveManip-Bench 上整体平均成功率达到 75.2%，并且相对固定视角 VLA（如 GR00T-N1）绝对提升可达 58 个百分点。
在真实机器人主动操作上，SaPaVe 平均成功率 85.0%，显著高于 π0 的 45.0% 和 GR00T-N1 的 53.75%；相对 π0 提升 40 个百分点，相对 GR00T-N1 提升 31.25 个百分点。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.