Recoleta Item Note

LiteVLA-Edge: Quantized On-Device Multimodal Control for Embedded Robotics

LiteVLA-Edge提出了一条面向嵌入式机器人的实用部署路径：把紧凑型视觉-语言-动作模型量化后，完整运行在Jetson Orin上做本地闭环控制。论文重点不是提出新策略学习目标，而是证明低延迟、离线、ROS 2兼容的多模态控制在边缘端可行。

vision-language-actionedge-roboticsquantizationon-device-inferenceros2

Summary

使用紧凑多模态骨干 SmolVLM-256M，把输入图像和语言指令直接映射为结构化动作token，再反量化为机器人控制量（如Twist速度命令）。
训练上采用监督式 image-to-action 微调：先用 FP32 + LoRA (r=8, α=8) 保持动作精度，再做训练后 4-bit GGUF量化（Q4_K_M） 以适配边缘硬件。
部署上基于 llama.cpp CUDA，将 42层 全部卸载到 Jetson AGX Orin GPU；同时把上下文限制为 512、输出最多 12 tokens，减少KV cache开销。
系统以 ROS 2 模块化方式连接感知-推理-执行链路，保留安全覆盖、可调试性和与低层 100 Hz 控制器的兼容性。

在 Jetson AGX Orin / Orin NX 上，端到端本地推理达到 150.5 ms 平均时延，对应 6.64 Hz / 约6.6 Hz 的推理频率；论文称相对先前基线约有 ~220% improvement。
连续运行中的时延抖动极低：标准差报告为 0.125 ms（表中为 0.13 ms），最小 150.4 ms、最大 151.0 ms，共 300 次测量。
与文中列举系统对比：OpenVLA (7B, RTX 4090) 仅 partial ~5 Hz；EdgeVLA (~1B, A100-40GB) 为 ~10 Hz；LiteVLA-Edge (256M, Jetson AGX Orin) 达到 6.6 Hz 且完全本地闭环。
论文声称该频率已跨过闭环视觉伺服的实用门槛（文中给出 6–10 Hz 为闭环视觉运动控制入口区间），使机器人可在单次人类注意窗口内响应动态变化。
没有提供标准机器人任务基准上的成功率、泛化率或真实操作任务分数；最强的实证结论主要是部署可行性、低延迟、低抖动和闭环运行稳定性。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.