---
kind: trend
trend_doc_id: 66
granularity: day
period_start: '2026-03-05T00:00:00'
period_end: '2026-03-06T00:00:00'
topics:
- vla
- robotics
- humanoid
- world-models
- multimodal-sensing
- safety
- long-horizon
- tactile
- 3d-pretraining
- efficient-planning
run_id: materialize-outputs
aliases:
- recoleta-trend-66
tags:
- recoleta/trend
- topic/vla
- topic/robotics
- topic/humanoid
- topic/world-models
- topic/multimodal-sensing
- topic/safety
- topic/long-horizon
- topic/tactile
- topic/3d-pretraining
- topic/efficient-planning
language_code: zh-CN
---

# VLA走向真实部署：按需推理、物理约束与多模态感知同步升温

## Overview
今天的机器人论文很集中地指向一个主题：把VLA从“能做演示”推进到“能在真实环境里稳定工作”。最强信号来自按需推理、物理约束、多模态感知和更紧凑的内部表示。主要观察-按需推理正在成为VLA标配。Tri-System用Critic监控执行，只在必要时唤醒慢速VLM；Act-Think-Abstain则先判断复杂度，再决定执行、思考或拒绝。两者都在解决同一个现实问题：不是每一步都值得重推理。

## Clusters

### VLA开始强调按需推理与失败恢复

这组工作把研究重点从“更大模型”转向“更聪明的调度”。Tri-System在高层视觉语言模型（VLM）和低层视觉语言动作模型（VLA）之间加入视觉Critic，只在完成、事故或停滞时重规划。Act-Think-Abstain则把每次执行先分成直接做、先思考、或拒绝做三类。共同信号很明确：实时性、安全性和分布外稳健性，正在成为VLA系统设计的一等目标。

#### Representative sources
- [Critic in the Loop: A Tri-System VLA Framework for Robust Long-Horizon Manipulation](../Inbox/2026-03-05--critic-in-the-loop-a-tri-system-vla-framework-for-robust-long-horizon-manipulation.md) — Pengfei Yi; Yingjie Ma; Wenjiang Xu; Yanan Hao; Shuai Gan; Wanting Li; …
- [Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models](../Inbox/2026-03-05--act-think-or-abstain-complexity-aware-adaptive-inference-for-vision-language-action-models.md) — Riccardo Andrea Izzo; Gianluca Bardaro; Matteo Matteucci


### 从端到端走向分层控制与可干预VLA

这组论文把机器人控制拆成多个专门模块，再通过物理约束或运行时控制把它们接起来。PhysiFlow用“三脑”结构分别负责语义意图、高频动作生成和稳健跟踪，在人形全身任务上把总体成功率从65.0%提到74.9%。另一篇工作则直接进入VLA内部，用线性observer读取特征，再用最小线性干预在线改写行为，强调无需微调也能做实时对齐。趋势上看，研究者正在把“会做事”推进到“做得稳、还能改”。

#### Representative sources
- [PhysiFlow: Physics-Aware Humanoid Whole-Body VLA via Multi-Brain Latent Flow Matching and Robust Tracking](../Inbox/2026-03-05--physiflow-physics-aware-humanoid-whole-body-vla-via-multi-brain-latent-flow-matching-and-robust-tracking.md) — Weikai Qin; Sichen Wu; Ci Chen; Mengfan Liu; Linxi Feng; Xinru Cui; …
- [Observing and Controlling Features in Vision-Language-Action Models](../Inbox/2026-03-05--observing-and-controlling-features-in-vision-language-action-models.md) — Hugo Buurmeijer; Carmen Amo Alonso; Aiden Swann; Marco Pavone


### 多模态与全向感知成为真实部署主线

感知侧的创新不再局限于单个RGB相机。HyperMVP用双曲空间组织多视角3D表示，强调更强结构感知与跨扰动泛化。OmniDP把头部全景LiDAR直接接入类人策略，解决超出相机视野的大工作空间操作。Safe-Night VLA则把热红外、深度和控制屏障函数组合起来，面向弱光、埋藏目标和镜像欺骗等安全关键场景。整体方向很清楚：机器人感知正在从“看见”走向“看全、看深、看不可见”。

#### Representative sources
- [Hyperbolic Multiview Pretraining for Robotic Manipulation](../Inbox/2026-03-05--hyperbolic-multiview-pretraining-for-robotic-manipulation.md) — Jin Yang; Ping Wei; Yixin Chen
- [OmniDP: Beyond-FOV Large-Workspace Humanoid Manipulation with Omnidirectional 3D Perception](../Inbox/2026-03-05--omnidp-beyond-fov-large-workspace-humanoid-manipulation-with-omnidirectional-3d-perception.md) — Pei Qu; Zheng Li; Yufei Jia; Ziyun Liu; Liang Zhu; Haoang Li; …
- [Safe-Night VLA: Seeing the Unseen via Thermal-Perceptive Vision-Language-Action Models for Safety-Critical Manipulation](../Inbox/2026-03-05--safe-night-vla-seeing-the-unseen-via-thermal-perceptive-vision-language-action-models-for-safety-critical-manipulation.md) — Dian Yu; Qingchuan Zhou; Bingkun Huang; Majid Khadiv; Zewen Yang


### 更紧凑的表征在换取更长时域和更低延迟

另一条明显主线是压缩表示与长时记忆。CompACT把单帧压到8个离散token，在保持规划精度接近的同时，把规划延迟提速约40倍。SeedPolicy则针对扩散策略“看得越久反而越差”的问题，引入可递归更新的时序状态，在50个任务上显示出更好的长时程收益。两者共同说明，机器人系统正在追求更紧凑的内部表示，以换取更长视野和更低延迟。

#### Representative sources
- [Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model](../Inbox/2026-03-05--planning-in-8-tokens-a-compact-discrete-tokenizer-for-latent-world-model.md) — Dongwon Kim; Gawon Seo; Jinsung Lee; Minsu Cho; Suha Kwak
- [SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation](../Inbox/2026-03-05--seedpolicy-horizon-scaling-via-self-evolving-diffusion-policy-for-robot-manipulation.md) — Youqiang Gui; Yuxuan Zhou; Shen Cheng; Xinyang Yuan; Haoqiang Fan; Peng Cheng; …


### 触觉从附加模态变成控制闭环的一部分

灵巧操作方面，研究重点从“预测动作”转向“预测接触会怎样发生”。Contact-Grounded Policy先生成未来状态与触觉的联合轨迹，再映射到底层顺应控制器可执行的目标状态，缩短了策略输出与真实接触结果之间的距离。这类方法说明，触觉正在从辅助输入升级为策略与控制接口的一部分。

#### Representative sources
- [Contact-Grounded Policy: Dexterous Visuotactile Policy with Generative Contact Grounding](../Inbox/2026-03-05--contact-grounded-policy-dexterous-visuotactile-policy-with-generative-contact-grounding.md) — Zhengtong Xu; Yeping Wang; Ben Abbatematteo; Jom Preechayasomboon; Sonny Chan; Nick Colonnese; …