Recoleta Item Note

AerialVLA: A Vision-Language-Action Model for UAV Navigation via Minimalist End-to-End Control

AerialVLA提出一个面向无人机视觉-语言导航的极简端到端VLA模型，把双视角图像和模糊语言提示直接映射为连续控制与降落动作。它试图摆脱现有UAV-VLN对oracle方向提示和外部目标检测器的依赖，在更自治的设定下实现导航与精确着陆。

vision-language-actionuav-navigationembodied-aiend-to-end-controlsim2real

Summary

使用双视角极简感知：仅保留前视和下视图像，垂直拼接后送入OpenVLA-7B的视觉编码器，以减少冗余输入和延迟，同时兼顾前向导航与降落对地对准。
使用模糊方向提示：把机载IMU/GPS得到的相对方位离散成粗粒度语言提示，如“straight ahead”“forward-right”，替代逐步oracle指令，迫使模型更多依赖视觉主动定位。
使用数值token化动作输出：将连续3-DoF动作 (\langle \Delta x, \Delta z, \Delta\psi \rangle) 离散为99个bin，并直接映射到LLM已有数字token，避免重新学习特殊动作词表。
将导航与降落统一到一个策略中：模型既可输出LAND，也可输出接近零位移动作作为停止信号，从而无需外部检测器触发着陆。
训练上采用行为克隆，并加入几何一致性过滤，去除模糊提示与专家动作之间明显矛盾的约4%训练帧。

在TravelUAV的Seen测试集上，AerialVLA达到47.96% SR、38.54% SPL、65.88 NE、57.69% OSR。
相比最强基线LongFly，在Seen集上提升到**+11.57 SR**（47.96 vs. 36.39）和**+7.47 SPL**（38.54 vs. 31.07）；论文还指出在Hard子集上SR优势为**+12.36**（46.30 vs. 33.94）。
与NavFoM相比，Seen集SR从29.17%提升到47.96%；与TravelUAV-DA相比，SR从17.45%提升到47.96%。
计算效率上，AerialVLA在RTX 4090上需要17GB VRAM、0.38s总延迟，优于TravelUAV的20GB、0.63s；其自身VLA推理为0.35s，模糊提示额外仅0.03s。
数据与训练规模：使用TravelUAV UAV-Need-Help任务，训练于7,922条轨迹 / 420k帧，测试包含Seen 1,418条、Unseen Object 629条、Unseen Map 958条。
摘要声称在unseen场景中相对领先基线达到“近3倍成功率”，但当前给定摘录未包含对应完整表格数字，因此无法逐项核验。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.