Trend brief · 2026-03-15

VLA转向主动感知、轻量多模态融合与部署级系统优化

今天的机器人论文很集中：VLA继续升温，但重点不只是更大会说，而是更会看、更会并行、也更接近真实部署。最强信号来自主动感知。VLA-Thinker不再把图像当成一次性上下文，而是允许模型在推理中再次查看局部区域。这个改动很直接，但效果很强：在LIBERO上做到97.5%，比OpenVLA-OFT高6.5个百分点；在Long子集高10.4个百分点，说明它主要补上了长时程过程里的消歧和纠错。

8 tracked topics

Evolution3 signals · Continuing 1 · Shifting 1 · Emerging 1

Embodied AI

vla active-perception tactile 3d-policy inference-systems world-models uav humanoid-teleoperation

Source markdown

Overview

Evolution

3 signals1 history window

与prev3相比，机器人研究仍围绕VLA和长时程操作展开，但今天更强调两件事：一是让模型在执行中继续看、继续感知；二是把多任务推理和跨机器人扩展做成可部署系统。最明确的延续信号来自VLA-Thinker。prev3里“主动感知”更多体现在方向判断上，今天则出现了把视觉重访写进推理轨迹的实现，且在LIBEROLong与RoboTwin长时程任务上给出明显增益。最明显的转移信号来自系统侧。

VLA主动感知继续推进，但从持续学习转向显式视觉重访

Continuing

History

机器人研究转向闭环造数、持续学习VLA与灵巧操作基础设施 (2026-03-12)

相对prev_3里“VLA走向持续学习与主动感知”的判断，今天这条线更具体地落在推理机制本身。VLA-Thinker把视觉重访做成显式工具调用，而不是只在语言里延长CoT。它在LIBERO达到97.5%，较OpenVLA-OFT提升6.5个百分点，Long子集提升10.4个百分点；在RoboTwin 2.0长/超长时程任务上也达到64.6%，较基线高18.1个百分点。这说明主动感知已从训练范式讨论，推进到可量化提升长时程成功率的系统设计。

机器人系统闭环的关注点转向推理调度与端侧部署

Shifting

History

机器人研究转向闭环造数、持续学习VLA与灵巧操作基础设施 (2026-03-12)

相对prev_3里RADAR与RoboClaw代表的“闭环造数与自复位流程”，今天的重点从采集闭环转向运行时闭环与部署效率。OxyGen不增加模型能力本身，而是重写VLA多任务推理栈：在RTX 4090上实现最高3.7×加速，同时保持200+ tokens/s语言吞吐和70 Hz动作频率，并指出重复prefill与资源争用分别带来约1.4×和2.6× slowdown。变化不在于是否闭环，而在于闭环瓶颈从数据生产侧转到推理服务侧。

灵巧操作从数据基础设施延伸到触觉与3D感知增强

Emerging

History

机器人研究转向闭环造数、持续学习VLA与灵巧操作基础设施 (2026-03-12)

相对prev_3里“灵巧操作转向可采集性与接触基础设施”，今天出现更直接的感知增强策略。TacFiLM把DIGIT触觉通过FiLM注入OpenVLA-OFT视觉中间层，不增加输入token长度，却在700+次真实rollout中把ID平均成功率做到86.67%，比次优基线高15.56个百分点，并把平均最大力降到8.34 N。与此同时，R3DP把VGGT等3D先验做成快慢分支，在RoboTwin 10任务上达到69.0%，比DP-single高32.9个百分点。这表明“增强操作能力”的主要抓手，已从采集基础设施延伸到触觉和3D先验的轻量整合。

Clusters

VLA走向主动感知与长时程推理

今天最强的一条线索，是VLA开始从“看一次再行动”转向持续闭环感知。VLA-Thinker把视觉查询变成推理动作，在思考过程中调用ZOOM-IN重新查看局部区域，再输出动作。这个设计主要改善长时程操作中的消歧和中途纠错。在LIBERO上，它达到97.5%成功率，相比OpenVLA-OFT提升6.5个百分点；其中Long子集提升10.4个百分点。在RoboTwin 2.0长/超长时程任务上，平均成功率64.6%，较46.5%提升18.1个百分点。

Representative sources

VLA-Thinker: Boosting Vision-Language-Action Models through Thinking-with-Image Reasoning — Chaoyang Wang; Wenrui Bao; Sicheng Gao; Bingxin Xu; Yu Tian; Yogesh S. Rawat; …

多模态与3D先验开始以轻量方式落地

另一条清晰主线，是把新模态和新空间先验接入策略，但尽量不把系统做重。TacFiLM用FiLM把触觉嵌入注入视觉中间层，不增加语言输入长度。在700多次真实机器人rollout里，ID平均成功率86.67%，比次优基线高15.56个百分点，同时把平均最大力降到8.34 N。R3DP则把重型3D模型放到慢分支，快分支补全中间帧特征，在RoboTwin 10任务上做到69.0%平均成功率，比DP-single高32.9个百分点，并把编码延迟从73.1 ms降到40.3 ms。

Representative sources

Tactile Modality Fusion for Vision-Language-Action Models — Charlotte Morissette; Amin Abyaneh; Wei-Di Chang; Anas Houssaini; David Meger; Hsiu-Chin Lin; …
R3DP: Real-Time 3D-Aware Policy for Embodied Manipulation — Yuhao Zhang; Wanxi Dong; Yue Shi; Yi Liang; Jingnan Gao; Qiaochu Yang; …

系统层效率与跨机器人扩展成为新焦点

今天还有一批工作不再主要比模型参数，而是补齐部署与扩展短板。OxyGen把VLA的KV缓存当作跨任务共享资源管理，在单张RTX 4090上实现最高3.7×多任务推理加速，同时维持200+ tokens/s语言吞吐和70 Hz动作频率。WestWorld则面向多机器人统一世界模型，用Sys-MoE和结构嵌入处理异构形态，在89个环境上预训练后，对未见Franka实现MAE 7.737，明显优于TrajWorld的13.102。

Representative sources

OxyGen: Unified KV Cache Management for Vision-Language-Action Models under Multi-Task Parallelism — Xiangyu Li; Huaizhi Tang; Xin Ding; Weijun Wang; Ting Cao; Yunxin Liu
WestWorld: A Knowledge-Encoded Scalable Trajectory World Model for Diverse Robotic Systems — Yuchen Wang; Jiangtao Kong; Sizhe Wei; Xiaochang Li; Haohong Lin; Hongjue Zhao; …

VLA与数据基础设施向无人机和类人系统外延

机器人形态和任务也在继续外扩。AerialVLA把VLA框架带到无人机导航，只保留前视和下视双视角，并用模糊方向提示替代密集oracle指令。在TravelUAV Seen集上，它达到47.96% SR，较LongFly提升11.57个百分点，且总延迟降到0.38秒。OmniClone则把全身遥操作做成通用数据基础设施：端到端延迟约80 ms，OmniBench上多个动态类别显著优于GMT和Twist2，并能用采集数据训练VLA，在真实Pick-and-Place上达到85.71%成功率。

Representative sources

AerialVLA: A Vision-Language-Action Model for UAV Navigation via Minimalist End-to-End Control — Peng Xu; Zhengnan Deng; Jiayan Deng; Zonghua Gu; Shaohua Wan
OmniClone: Engineering a Robust, All-Rounder Whole-Body Humanoid Teleoperation System — Yixuan Li; Le Ma; Yutang Lin; Yushi Du; Mengya Liu; Kaizhe Hu; …

Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.

View repo 5-minute quickstart