Trend brief · 2026-03-05

VLA走向真实部署：按需推理、物理约束与多模态感知同步升温

今天的机器人论文很集中地指向一个主题：把VLA从“能做演示”推进到“能在真实环境里稳定工作”。最强信号来自按需推理、物理约束、多模态感知和更紧凑的内部表示。主要观察-按需推理正在成为VLA标配。Tri-System用Critic监控执行，只在必要时唤醒慢速VLM；Act-Think-Abstain则先判断复杂度，再决定执行、思考或拒绝。两者都在解决同一个现实问题：不是每一步都值得重推理。

10 tracked topics

Embodied AI

vla robotics humanoid world-models multimodal-sensing safety long-horizon tactile 3d-pretraining efficient-planning

Source markdown

Overview

Clusters

VLA开始强调按需推理与失败恢复

这组工作把研究重点从“更大模型”转向“更聪明的调度”。Tri-System在高层视觉语言模型（VLM）和低层视觉语言动作模型（VLA）之间加入视觉Critic，只在完成、事故或停滞时重规划。Act-Think-Abstain则把每次执行先分成直接做、先思考、或拒绝做三类。共同信号很明确：实时性、安全性和分布外稳健性，正在成为VLA系统设计的一等目标。

Representative sources

Critic in the Loop: A Tri-System VLA Framework for Robust Long-Horizon Manipulation — Pengfei Yi; Yingjie Ma; Wenjiang Xu; Yanan Hao; Shuai Gan; Wanting Li; …
Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models — Riccardo Andrea Izzo; Gianluca Bardaro; Matteo Matteucci

从端到端走向分层控制与可干预VLA

这组论文把机器人控制拆成多个专门模块，再通过物理约束或运行时控制把它们接起来。PhysiFlow用“三脑”结构分别负责语义意图、高频动作生成和稳健跟踪，在人形全身任务上把总体成功率从65.0%提到74.9%。另一篇工作则直接进入VLA内部，用线性observer读取特征，再用最小线性干预在线改写行为，强调无需微调也能做实时对齐。趋势上看，研究者正在把“会做事”推进到“做得稳、还能改”。

Representative sources

PhysiFlow: Physics-Aware Humanoid Whole-Body VLA via Multi-Brain Latent Flow Matching and Robust Tracking — Weikai Qin; Sichen Wu; Ci Chen; Mengfan Liu; Linxi Feng; Xinru Cui; …
Observing and Controlling Features in Vision-Language-Action Models — Hugo Buurmeijer; Carmen Amo Alonso; Aiden Swann; Marco Pavone

多模态与全向感知成为真实部署主线

感知侧的创新不再局限于单个RGB相机。HyperMVP用双曲空间组织多视角3D表示，强调更强结构感知与跨扰动泛化。OmniDP把头部全景LiDAR直接接入类人策略，解决超出相机视野的大工作空间操作。Safe-Night VLA则把热红外、深度和控制屏障函数组合起来，面向弱光、埋藏目标和镜像欺骗等安全关键场景。整体方向很清楚：机器人感知正在从“看见”走向“看全、看深、看不可见”。

Representative sources

Hyperbolic Multiview Pretraining for Robotic Manipulation — Jin Yang; Ping Wei; Yixin Chen
OmniDP: Beyond-FOV Large-Workspace Humanoid Manipulation with Omnidirectional 3D Perception — Pei Qu; Zheng Li; Yufei Jia; Ziyun Liu; Liang Zhu; Haoang Li; …
Safe-Night VLA: Seeing the Unseen via Thermal-Perceptive Vision-Language-Action Models for Safety-Critical Manipulation — Dian Yu; Qingchuan Zhou; Bingkun Huang; Majid Khadiv; Zewen Yang

更紧凑的表征在换取更长时域和更低延迟

另一条明显主线是压缩表示与长时记忆。CompACT把单帧压到8个离散token，在保持规划精度接近的同时，把规划延迟提速约40倍。SeedPolicy则针对扩散策略“看得越久反而越差”的问题，引入可递归更新的时序状态，在50个任务上显示出更好的长时程收益。两者共同说明，机器人系统正在追求更紧凑的内部表示，以换取更长视野和更低延迟。

Representative sources

Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model — Dongwon Kim; Gawon Seo; Jinsung Lee; Minsu Cho; Suha Kwak
SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation — Youqiang Gui; Yuxuan Zhou; Shen Cheng; Xinyang Yuan; Haoqiang Fan; Peng Cheng; …

触觉从附加模态变成控制闭环的一部分

灵巧操作方面，研究重点从“预测动作”转向“预测接触会怎样发生”。Contact-Grounded Policy先生成未来状态与触觉的联合轨迹，再映射到底层顺应控制器可执行的目标状态，缩短了策略输出与真实接触结果之间的距离。这类方法说明，触觉正在从辅助输入升级为策略与控制接口的一部分。

Representative sources

Contact-Grounded Policy: Dexterous Visuotactile Policy with Generative Contact Grounding — Zhengtong Xu; Yeping Wang; Ben Abbatematteo; Jom Preechayasomboon; Sonny Chan; Nick Colonnese; …

Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.

View repo 5-minute quickstart