Recoleta Item Note

Neural Implicit Action Fields: From Discrete Waypoints to Continuous Functions for Vision-Language-Action Models

NIAF 将视觉-语言-动作模型的动作输出从离散轨迹点改为连续时间函数，以更贴合真实机器人运动的连续性。核心价值在于能以任意频率查询动作，并直接得到解析速度/加速度/jerk，从而提升长时序任务表现与真实机器人控制平滑性。

vision-language-actioncontinuous-action-representationimplicit-neural-representationrobot-manipulationimpedance-control

Summary

现有 VLA 多预测离散 waypoints 或固定长度 action chunks，但机器人运动本质上是连续的；离散化会绑定固定采样率，难以适配不同控制频率。
离散表示通常缺乏高阶导数的一致约束，速度/加速度往往依赖数值微分，容易引入量化噪声、抖动和控制不稳定。
这很重要，因为精细 manipulation 和阻抗控制需要平滑且物理一致的参考轨迹，而不是只适合刚性位置控制的粗糙离散点列。

把动作 chunk 表示为连续函数 (\mathcal{A}(\tau)=\Phi(\tau;\theta))，模型不再直接输出离散动作序列，而是预测定义整条轨迹的函数参数 (\theta)。
使用多模态大语言模型（MLLM）作为 hypernetwork / hierarchical spectral modulator：根据图像、状态和语言指令，生成调制向量去重配置一个共享的 SIREN 动作解码器。
用 SIREN（正弦隐式网络）表示动作场，因为它天然可解析求导且具有 (C^{\infty}) 平滑性；因此可在任意时间点查询位置，也可直接解析得到速度、加速度和 jerk。
提出 grouped hyper-modulation：把不同 token 分配给 SIREN 各层的频率与相位调制，使语义信息分层地控制轨迹几何与运动学。
训练时除位置损失外，还可加入解析的速度损失、加速度损失和 jerk 正则；在真实机器人上，这些解析量可直接用于阻抗控制的前馈/阻尼项。

CALVIN, ABCD→D：NIAF（0.77B、无机器人大规模预训练）Avg. Len 4.66，高于 BEAST 4.61、FLOWER 4.62、UniVLA 4.63；1/2/3/4/5 连续任务成功率分别为 0.997/0.978/0.946/0.900/0.839。
CALVIN, ABC→D：NIAF Avg. Len 4.47，高于 BEAST 4.42、FLOWER 4.44、UniVLA 4.41；4-task 与 5-task 成功率分别为 0.848 和 0.764，优于 BEAST 的 0.827/0.744 与 FLOWER 的 0.823/0.755。
文中声称在 CALVIN 和 LIBERO 上实现了跨多种 backbone 的 state-of-the-art，并提到可从 Florence-2 扩展到 Qwen3-VL；但给定摘录中的 LIBERO 表格被截断，因此无法完整列出其全部数值结果。
真实机器人实验覆盖 4 个任务：Item Placement、Cup Stacking、Shape Insertion、Towel Folding。摘录未提供成功率或误差等定量指标，但作者明确声称连续动作表示可减少离散基线中的 control jitter，并支持更稳定的 impedance control。
相比离散 waypoint 方法，论文最强的具体主张是：NIAF 能以无限分辨率生成轨迹、在单次前向中输出连续动作场，并提供解析无噪声的速度/加速度/jerk 用于物理一致控制。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.