Trend brief · 2026-03-05

VLA走向真实部署:按需推理、物理约束与多模态感知同步升温

今天的机器人论文很集中地指向一个主题:把VLA从“能做演示”推进到“能在真实环境里稳定工作”。最强信号来自按需推理、物理约束、多模态感知和更紧凑的内部表示。主要观察-按需推理正在成为VLA标配。Tri-System用Critic监控执行,只在必要时唤醒慢速VLM;Act-Think-Abstain则先判断复杂度,再决定执行、思考或拒绝。两者都在解决同一个现实问题:不是每一步都值得重推理。

10 tracked topics

今天的机器人论文很集中地指向一个主题:把VLA从“能做演示”推进到“能在真实环境里稳定工作”。最强信号来自按需推理、物理约束、多模态感知和更紧凑的内部表示。主要观察-按需推理正在成为VLA标配。Tri-System用Critic监控执行,只在必要时唤醒慢速VLM;Act-Think-Abstain则先判断复杂度,再决定执行、思考或拒绝。两者都在解决同一个现实问题:不是每一步都值得重推理。

VLA开始强调按需推理与失败恢复

这组工作把研究重点从“更大模型”转向“更聪明的调度”。Tri-System在高层视觉语言模型(VLM)和低层视觉语言动作模型(VLA)之间加入视觉Critic,只在完成、事故或停滞时重规划。Act-Think-Abstain则把每次执行先分成直接做、先思考、或拒绝做三类。共同信号很明确:实时性、安全性和分布外稳健性,正在成为VLA系统设计的一等目标。

Representative sources

从端到端走向分层控制与可干预VLA

这组论文把机器人控制拆成多个专门模块,再通过物理约束或运行时控制把它们接起来。PhysiFlow用“三脑”结构分别负责语义意图、高频动作生成和稳健跟踪,在人形全身任务上把总体成功率从65.0%提到74.9%。另一篇工作则直接进入VLA内部,用线性observer读取特征,再用最小线性干预在线改写行为,强调无需微调也能做实时对齐。趋势上看,研究者正在把“会做事”推进到“做得稳、还能改”。

Representative sources

多模态与全向感知成为真实部署主线

感知侧的创新不再局限于单个RGB相机。HyperMVP用双曲空间组织多视角3D表示,强调更强结构感知与跨扰动泛化。OmniDP把头部全景LiDAR直接接入类人策略,解决超出相机视野的大工作空间操作。Safe-Night VLA则把热红外、深度和控制屏障函数组合起来,面向弱光、埋藏目标和镜像欺骗等安全关键场景。整体方向很清楚:机器人感知正在从“看见”走向“看全、看深、看不可见”。

Representative sources

更紧凑的表征在换取更长时域和更低延迟

另一条明显主线是压缩表示与长时记忆。CompACT把单帧压到8个离散token,在保持规划精度接近的同时,把规划延迟提速约40倍。SeedPolicy则针对扩散策略“看得越久反而越差”的问题,引入可递归更新的时序状态,在50个任务上显示出更好的长时程收益。两者共同说明,机器人系统正在追求更紧凑的内部表示,以换取更长视野和更低延迟。

Representative sources

触觉从附加模态变成控制闭环的一部分

灵巧操作方面,研究重点从“预测动作”转向“预测接触会怎样发生”。Contact-Grounded Policy先生成未来状态与触觉的联合轨迹,再映射到底层顺应控制器可执行的目标状态,缩短了策略输出与真实接触结果之间的距离。这类方法说明,触觉正在从辅助输入升级为策略与控制接口的一部分。

Representative sources

Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.

Newer代码智能体走向自纠错、级联部署与可验证安全Older软件代理从任务增强走向执行闭环与领域可靠性