Recoleta Item Note

AnyCamVLA: Zero-Shot Camera Adaptation for Viewpoint Robust Vision-Language-Action Models

本文提出 AnyCamVLA，一种面向视觉-语言-动作模型（VLA）的零样本相机适配框架，在不增加示教数据、不微调策略、不改网络结构的前提下提升相机视角鲁棒性。核心思想是在测试时把当前相机图像实时合成为训练时视角，再交给冻结的 VLA 执行动作。

vision-language-actioncamera-adaptationnovel-view-synthesiszero-shot-transfersim2real

Summary

本文提出 AnyCamVLA，一种面向视觉-语言-动作模型（VLA）的零样本相机适配框架，在不增加示教数据、不微调策略、不改网络结构的前提下提升相机视角鲁棒性。核心思想是在测试时把当前相机图像实时合成为训练时视角，再交给冻结的 VLA 执行动作。

把问题从“让策略学会所有视角”改成“把测试视角变回训练视角”：给定测试图像、测试相机参数和训练相机参数，先通过相机适配模块合成训练视角图像，再输入冻结策略。
该适配模块使用前馈式新视角合成模型（文中采用 LVSM），可处理外参和内参变化，并支持输入/输出相机数量不同。
整体流程很简单：采集测试相机图像 → 合成训练视角图像 → 输入原始 VLA → 输出动作；因此是 plug-and-play，可用于任意 RGB-based policy。
由于新视角合成只改视觉输入，不改策略参数，所以避免了额外机器人示教、策略遗忘和架构改造，同时尽量保留 VLA 已学到的视觉-语言先验。
运行上满足实时性：文中报告 LVSM 在 256×256、2 输入到 2 输出视角时延 36.55 ms，约 27 FPS；论文图示中适配约 30 Hz、VLA 控制约 10 Hz。

在 LIBERO 的未见过 agent camera 视角扰动上，Ours-π 在 All Suites 的平均成功率达到 94.5%，显著高于基线 π0.5: 67.9%、OpenVLA-OFT: 62.1%、GeoAwareVLA: 86.1%；其中大扰动下 Ours-π 仍有 92.5%，而 π0.5 仅 39.9%、OpenVLA-OFT 为 46.2%。
在更细分套件上，Ours-π 在 LIBERO-Object 的平均成功率为 98.0%，高于数据增强微调 π0.5: 94.4%；在 LIBERO-Long 平均为 88.6%，高于 π0.5: 74.3% 与 GeoAwareVLA: 82.9%。
在未见过 wrist camera 视角扰动、LIBERO-Long 上，Ours-π 平均成功率 88.6%，优于 π0.5: 83.1%*、远高于 π0.5: 28.6% 和 GeoAwareVLA: 5.2%；大扰动下 Ours-π 仍有 84.4%。
视角适配消融实验（LIBERO-Long）显示：原始视角上的 π0.5 成功率为 92.4%；无适配在新视角平均 49.0%；Homography 31.7%；Depth projection 81.1%；Ours-π 88.6%。同时图像质量 PSNR 最高为 23.20 dB（Ours-π），高于 Depth 18.27 dB、Homography 14.72 dB、无适配 13.64 dB。
论文还声称在真实机器人操作中，对外参、内参、自由手持相机（如 iPhone、ZED、RealSense）都能稳定提升视角鲁棒性，并且在最高 15 cm 平移、60° 旋转的相机变化下性能退化很小；但给定摘录未提供对应真实实验的详细数值表。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.