Trend brief · 2026-03-02

VLA走向连续动力学、快速推理与长时程记忆

今天的机器人研究很集中。焦点几乎都落在视觉-语言-动作模型(VLA)上。主线很清楚:让动作更连续,让推理更快,让长期决策更稳。主要观察1.动作表示正在升级过去不少VLA输出离散动作点或固定长度动作块。今天的工作更强调连续性和世界变化。-Pri4R让模型在训练时额外预测3D点轨迹,学习“动作之后世界会怎么变”。这类监督不进入测试期,因此部署开销不变。

6 tracked topics

今天的机器人研究很集中。焦点几乎都落在视觉-语言-动作模型(VLA)上。主线很清楚:让动作更连续,让推理更快,让长期决策更稳。主要观察1.动作表示正在升级过去不少VLA输出离散动作点或固定长度动作块。今天的工作更强调连续性和世界变化。-Pri4R让模型在训练时额外预测3D点轨迹,学习“动作之后世界会怎么变”。这类监督不进入测试期,因此部署开销不变。

动作表示从离散输出转向连续动力学

多篇工作把改进重点放在动作表示本身。Pri4R在训练期加入3D点轨迹监督,让模型学到“动作如何改变世界”。NIAF把离散动作块改成连续函数,可直接得到速度、加速度与jerk。Mean-Flow则把多步流匹配压缩到单步生成,主打低时延部署。共同方向是让VLA更懂几何、更平滑、也更接近真实控制需求。

Representative sources

推理侧优化成为VLA落地关键

另一条主线是尽量不改大模型训练成本,却直接在推理期提质提速。ATA用注意力引导和动作引导做免训练增强,在多种VLA上提升成功率。KERV把运动学预测接入speculative decoding,降低重推理代价,拿到接近1.5倍以上加速。这里的共同点是:通过更聪明的推理机制,弥补VLA在实时闭环中的短板。

Representative sources

长时程记忆与在线适应同步升温

长时程操作开始不再假设任务近似马尔可夫。Keyframe-Chaining用少量关键帧替代密集历史,显著提升依赖早期事件的任务成功率。π-StepNFT则在在线强化学习中扩大探索,并用逐步排序信号稳定微调流式VLA。二者都在解决同一问题:机器人不能只看眼前一步,还要能在偏离、记忆和恢复中持续决策。

Representative sources

物理结构先验扩展到高维灵巧操作

除通用机械臂VLA外,具身智能论文也在向更复杂物理结构扩展。PhysGraph把双手、工具、物体表示成物理图,在高维接触任务中强调结构先验与参数效率。这说明趋势不只是在‘更大的VLA’,也在于把物理与形体结构显式写进策略网络。

Representative sources

Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.

Newer代码智能体从“会写”转向“能验证、能协作、能落地”Older代码代理转向仓库理解、性能闭环与安全底座