---
kind: trend
trend_doc_id: 486
granularity: day
period_start: '2026-03-15T00:00:00'
period_end: '2026-03-16T00:00:00'
topics:
- vla
- active-perception
- tactile
- 3d-policy
- inference-systems
- world-models
- uav
- humanoid-teleoperation
run_id: materialize-outputs
aliases:
- recoleta-trend-486
tags:
- recoleta/trend
- topic/vla
- topic/active-perception
- topic/tactile
- topic/3d-policy
- topic/inference-systems
- topic/world-models
- topic/uav
- topic/humanoid-teleoperation
language_code: zh-CN
---

# VLA转向主动感知、轻量多模态融合与部署级系统优化

## Overview
今天的机器人论文很集中：VLA继续升温，但重点不只是更大会说，而是更会看、更会并行、也更接近真实部署。最强信号来自主动感知。VLA-Thinker不再把图像当成一次性上下文，而是允许模型在推理中再次查看局部区域。这个改动很直接，但效果很强：在LIBERO上做到97.5%，比OpenVLA-OFT高6.5个百分点；在Long子集高10.4个百分点，说明它主要补上了长时程过程里的消歧和纠错。

## Evolution

与prev3相比，机器人研究仍围绕VLA和长时程操作展开，但今天更强调两件事：一是让模型在执行中继续看、继续感知；二是把多任务推理和跨机器人扩展做成可部署系统。最明确的延续信号来自VLA-Thinker。prev3里“主动感知”更多体现在方向判断上，今天则出现了把视觉重访写进推理轨迹的实现，且在LIBEROLong与RoboTwin长时程任务上给出明显增益。最明显的转移信号来自系统侧。

### VLA主动感知继续推进，但从持续学习转向显式视觉重访

- 变化：延续
- 历史窗口：[机器人研究转向闭环造数、持续学习VLA与灵巧操作基础设施 (2026-03-12)](day--2026-03-12--trend--435.md)

相对prev_3里“VLA走向持续学习与主动感知”的判断，今天这条线更具体地落在推理机制本身。VLA-Thinker把视觉重访做成显式工具调用，而不是只在语言里延长CoT。它在LIBERO达到97.5%，较OpenVLA-OFT提升6.5个百分点，Long子集提升10.4个百分点；在RoboTwin 2.0长/超长时程任务上也达到64.6%，较基线高18.1个百分点。这说明主动感知已从训练范式讨论，推进到可量化提升长时程成功率的系统设计。

### 机器人系统闭环的关注点转向推理调度与端侧部署

- 变化：转向
- 历史窗口：[机器人研究转向闭环造数、持续学习VLA与灵巧操作基础设施 (2026-03-12)](day--2026-03-12--trend--435.md)

相对prev_3里RADAR与RoboClaw代表的“闭环造数与自复位流程”，今天的重点从采集闭环转向运行时闭环与部署效率。OxyGen不增加模型能力本身，而是重写VLA多任务推理栈：在RTX 4090上实现最高3.7×加速，同时保持200+ tokens/s语言吞吐和70 Hz动作频率，并指出重复prefill与资源争用分别带来约1.4×和2.6× slowdown。变化不在于是否闭环，而在于闭环瓶颈从数据生产侧转到推理服务侧。

### 灵巧操作从数据基础设施延伸到触觉与3D感知增强

- 变化：新出现
- 历史窗口：[机器人研究转向闭环造数、持续学习VLA与灵巧操作基础设施 (2026-03-12)](day--2026-03-12--trend--435.md)

相对prev_3里“灵巧操作转向可采集性与接触基础设施”，今天出现更直接的感知增强策略。TacFiLM把DIGIT触觉通过FiLM注入OpenVLA-OFT视觉中间层，不增加输入token长度，却在700+次真实rollout中把ID平均成功率做到86.67%，比次优基线高15.56个百分点，并把平均最大力降到8.34 N。与此同时，R3DP把VGGT等3D先验做成快慢分支，在RoboTwin 10任务上达到69.0%，比DP-single高32.9个百分点。这表明“增强操作能力”的主要抓手，已从采集基础设施延伸到触觉和3D先验的轻量整合。

## Clusters

### VLA走向主动感知与长时程推理

今天最强的一条线索，是VLA开始从“看一次再行动”转向持续闭环感知。VLA-Thinker把视觉查询变成推理动作，在思考过程中调用ZOOM-IN重新查看局部区域，再输出动作。这个设计主要改善长时程操作中的消歧和中途纠错。在LIBERO上，它达到97.5%成功率，相比OpenVLA-OFT提升6.5个百分点；其中Long子集提升10.4个百分点。在RoboTwin 2.0长/超长时程任务上，平均成功率64.6%，较46.5%提升18.1个百分点。

#### Representative sources
- [VLA-Thinker: Boosting Vision-Language-Action Models through Thinking-with-Image Reasoning](../Inbox/2026-03-15--vla-thinker-boosting-vision-language-action-models-through-thinking-with-image-reasoning.md) — Chaoyang Wang; Wenrui Bao; Sicheng Gao; Bingxin Xu; Yu Tian; Yogesh S. Rawat; …


### 多模态与3D先验开始以轻量方式落地

另一条清晰主线，是把新模态和新空间先验接入策略，但尽量不把系统做重。TacFiLM用FiLM把触觉嵌入注入视觉中间层，不增加语言输入长度。在700多次真实机器人rollout里，ID平均成功率86.67%，比次优基线高15.56个百分点，同时把平均最大力降到8.34 N。R3DP则把重型3D模型放到慢分支，快分支补全中间帧特征，在RoboTwin 10任务上做到69.0%平均成功率，比DP-single高32.9个百分点，并把编码延迟从73.1 ms降到40.3 ms。

#### Representative sources
- [Tactile Modality Fusion for Vision-Language-Action Models](../Inbox/2026-03-15--tactile-modality-fusion-for-vision-language-action-models.md) — Charlotte Morissette; Amin Abyaneh; Wei-Di Chang; Anas Houssaini; David Meger; Hsiu-Chin Lin; …
- [R3DP: Real-Time 3D-Aware Policy for Embodied Manipulation](../Inbox/2026-03-15--r3dp-real-time-3d-aware-policy-for-embodied-manipulation.md) — Yuhao Zhang; Wanxi Dong; Yue Shi; Yi Liang; Jingnan Gao; Qiaochu Yang; …


### 系统层效率与跨机器人扩展成为新焦点

今天还有一批工作不再主要比模型参数，而是补齐部署与扩展短板。OxyGen把VLA的KV缓存当作跨任务共享资源管理，在单张RTX 4090上实现最高3.7×多任务推理加速，同时维持200+ tokens/s语言吞吐和70 Hz动作频率。WestWorld则面向多机器人统一世界模型，用Sys-MoE和结构嵌入处理异构形态，在89个环境上预训练后，对未见Franka实现MAE 7.737，明显优于TrajWorld的13.102。

#### Representative sources
- [OxyGen: Unified KV Cache Management for Vision-Language-Action Models under Multi-Task Parallelism](../Inbox/2026-03-15--oxygen-unified-kv-cache-management-for-vision-language-action-models-under-multi-task-parallelism.md) — Xiangyu Li; Huaizhi Tang; Xin Ding; Weijun Wang; Ting Cao; Yunxin Liu
- [WestWorld: A Knowledge-Encoded Scalable Trajectory World Model for Diverse Robotic Systems](../Inbox/2026-03-15--westworld-a-knowledge-encoded-scalable-trajectory-world-model-for-diverse-robotic-systems.md) — Yuchen Wang; Jiangtao Kong; Sizhe Wei; Xiaochang Li; Haohong Lin; Hongjue Zhao; …


### VLA与数据基础设施向无人机和类人系统外延

机器人形态和任务也在继续外扩。AerialVLA把VLA框架带到无人机导航，只保留前视和下视双视角，并用模糊方向提示替代密集oracle指令。在TravelUAV Seen集上，它达到47.96% SR，较LongFly提升11.57个百分点，且总延迟降到0.38秒。OmniClone则把全身遥操作做成通用数据基础设施：端到端延迟约80 ms，OmniBench上多个动态类别显著优于GMT和Twist2，并能用采集数据训练VLA，在真实Pick-and-Place上达到85.71%成功率。

#### Representative sources
- [AerialVLA: A Vision-Language-Action Model for UAV Navigation via Minimalist End-to-End Control](../Inbox/2026-03-15--aerialvla-a-vision-language-action-model-for-uav-navigation-via-minimalist-end-to-end-control.md) — Peng Xu; Zhengnan Deng; Jiayan Deng; Zonghua Gu; Shaohua Wan
- [OmniClone: Engineering a Robust, All-Rounder Whole-Body Humanoid Teleoperation System](../Inbox/2026-03-15--omniclone-engineering-a-robust-all-rounder-whole-body-humanoid-teleoperation-system.md) — Yixuan Li; Le Ma; Yutang Lin; Yushi Du; Mengya Liu; Kaizhe Hu; …