Recoleta Item Note

DyQ-VLA: Temporal-Dynamic-Aware Quantization for Embodied Vision-Language-Action Models

本文提出 DyQ-VLA，一种面向具身视觉-语言-动作模型的时序动态感知量化框架，根据机器人当前运动阶段动态切换激活比特宽度。它试图在几乎不损失控制性能的前提下，显著降低内存占用并加速仿真与真实机器人推理。

vision-language-actiondynamic-quantizationedge-inferenceembodied-airobot-deployment

Summary

核心思路很简单：机器人在“动作粗放、误差不敏感”时用更低比特加速；在“动作精细、误差敏感”时切回更高比特甚至 BF16，以减少关键操作失败。
方法分成两部分：一是 sensitivity-aware switching，用实时运动学信号决定何时切换精度；二是 kinematic-guided bit allocation，用这些信号决定当前该分配 2/4/8/16 bit 中的哪一种。
作者发现 VLA 量化敏感度具有明显时间动态性，并用两类运动学代理来跟踪它：Motion Fineness 反映平移动作是否细腻，Angular Jerk 反映旋转变化是否突然；二者与真实敏感度相关性分别达到 r=0.90 和 r=0.87。
系统采用 静态 W4 + 动态 A-bit 范式：权重固定为 INT4，激活按步骤在 2/4/8 bit 与 BF16 间切换，避免动态换权重带来的带宽开销。
为防止频繁抖动切换，框架引入滞回/延迟窗口机制；同时通过离线校准，把连续敏感度映射成在线常数时间查表的离散比特选择。

论文摘要声称：DyQ-VLA 仅使用原模型 30.9% 的内存占用，同时保持 99.5% 的原始性能。
在速度上，方法实现了 1.49× 的仿真加速，以及最高 1.43× 的真实世界加速。
在敏感度建模上，运动学代理与量化敏感度呈强相关：Motion Fineness r=0.90，Angular Jerk r=0.87，支撑了“用实时运动状态指导量化”的关键假设。
论文还通过逐步扰动分析说明：即使局部量化误差在某些粗运动阶段达到峰值，任务成功率仍可保持较高，说明“局部误差大小”与“最终任务是否失败”并非线性对应，这正是动态量化优于静态量化的依据。
摘录中未给出更细的完整实验表格信息，例如具体数据集分项分数、与 GPTQ/AWQ/QVLA/SQAP-VLA 的逐项数值对比、误差条或显著性检验。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.