Trend brief · 2026-03-15

VLA转向主动感知、轻量多模态融合与部署级系统优化

今天的机器人论文很集中:VLA继续升温,但重点不只是更大会说,而是更会看、更会并行、也更接近真实部署。最强信号来自主动感知。VLA-Thinker不再把图像当成一次性上下文,而是允许模型在推理中再次查看局部区域。这个改动很直接,但效果很强:在LIBERO上做到97.5%,比OpenVLA-OFT高6.5个百分点;在Long子集高10.4个百分点,说明它主要补上了长时程过程里的消歧和纠错。

8 tracked topics
Evolution3 signals · Continuing 1 · Shifting 1 · Emerging 1

今天的机器人论文很集中:VLA继续升温,但重点不只是更大会说,而是更会看、更会并行、也更接近真实部署。最强信号来自主动感知。VLA-Thinker不再把图像当成一次性上下文,而是允许模型在推理中再次查看局部区域。这个改动很直接,但效果很强:在LIBERO上做到97.5%,比OpenVLA-OFT高6.5个百分点;在Long子集高10.4个百分点,说明它主要补上了长时程过程里的消歧和纠错。

3 signals1 history window

与prev3相比,机器人研究仍围绕VLA和长时程操作展开,但今天更强调两件事:一是让模型在执行中继续看、继续感知;二是把多任务推理和跨机器人扩展做成可部署系统。最明确的延续信号来自VLA-Thinker。prev3里“主动感知”更多体现在方向判断上,今天则出现了把视觉重访写进推理轨迹的实现,且在LIBEROLong与RoboTwin长时程任务上给出明显增益。最明显的转移信号来自系统侧。

VLA主动感知继续推进,但从持续学习转向显式视觉重访

Continuing

相对prev_3里“VLA走向持续学习与主动感知”的判断,今天这条线更具体地落在推理机制本身。VLA-Thinker把视觉重访做成显式工具调用,而不是只在语言里延长CoT。它在LIBERO达到97.5%,较OpenVLA-OFT提升6.5个百分点,Long子集提升10.4个百分点;在RoboTwin 2.0长/超长时程任务上也达到64.6%,较基线高18.1个百分点。这说明主动感知已从训练范式讨论,推进到可量化提升长时程成功率的系统设计。

机器人系统闭环的关注点转向推理调度与端侧部署

Shifting

相对prev_3里RADAR与RoboClaw代表的“闭环造数与自复位流程”,今天的重点从采集闭环转向运行时闭环与部署效率。OxyGen不增加模型能力本身,而是重写VLA多任务推理栈:在RTX 4090上实现最高3.7×加速,同时保持200+ tokens/s语言吞吐和70 Hz动作频率,并指出重复prefill与资源争用分别带来约1.4×和2.6× slowdown。变化不在于是否闭环,而在于闭环瓶颈从数据生产侧转到推理服务侧。

灵巧操作从数据基础设施延伸到触觉与3D感知增强

Emerging

相对prev_3里“灵巧操作转向可采集性与接触基础设施”,今天出现更直接的感知增强策略。TacFiLM把DIGIT触觉通过FiLM注入OpenVLA-OFT视觉中间层,不增加输入token长度,却在700+次真实rollout中把ID平均成功率做到86.67%,比次优基线高15.56个百分点,并把平均最大力降到8.34 N。与此同时,R3DP把VGGT等3D先验做成快慢分支,在RoboTwin 10任务上达到69.0%,比DP-single高32.9个百分点。这表明“增强操作能力”的主要抓手,已从采集基础设施延伸到触觉和3D先验的轻量整合。

VLA走向主动感知与长时程推理

今天最强的一条线索,是VLA开始从“看一次再行动”转向持续闭环感知。VLA-Thinker把视觉查询变成推理动作,在思考过程中调用ZOOM-IN重新查看局部区域,再输出动作。这个设计主要改善长时程操作中的消歧和中途纠错。在LIBERO上,它达到97.5%成功率,相比OpenVLA-OFT提升6.5个百分点;其中Long子集提升10.4个百分点。在RoboTwin 2.0长/超长时程任务上,平均成功率64.6%,较46.5%提升18.1个百分点。

Representative sources

多模态与3D先验开始以轻量方式落地

另一条清晰主线,是把新模态和新空间先验接入策略,但尽量不把系统做重。TacFiLM用FiLM把触觉嵌入注入视觉中间层,不增加语言输入长度。在700多次真实机器人rollout里,ID平均成功率86.67%,比次优基线高15.56个百分点,同时把平均最大力降到8.34 N。R3DP则把重型3D模型放到慢分支,快分支补全中间帧特征,在RoboTwin 10任务上做到69.0%平均成功率,比DP-single高32.9个百分点,并把编码延迟从73.1 ms降到40.3 ms。

Representative sources

系统层效率与跨机器人扩展成为新焦点

今天还有一批工作不再主要比模型参数,而是补齐部署与扩展短板。OxyGen把VLA的KV缓存当作跨任务共享资源管理,在单张RTX 4090上实现最高3.7×多任务推理加速,同时维持200+ tokens/s语言吞吐和70 Hz动作频率。WestWorld则面向多机器人统一世界模型,用Sys-MoE和结构嵌入处理异构形态,在89个环境上预训练后,对未见Franka实现MAE 7.737,明显优于TrajWorld的13.102。

Representative sources

VLA与数据基础设施向无人机和类人系统外延

机器人形态和任务也在继续外扩。AerialVLA把VLA框架带到无人机导航,只保留前视和下视双视角,并用模糊方向提示替代密集oracle指令。在TravelUAV Seen集上,它达到47.96% SR,较LongFly提升11.57个百分点,且总延迟降到0.38秒。OmniClone则把全身遥操作做成通用数据基础设施:端到端延迟约80 ms,OmniBench上多个动态类别显著优于GMT和Twist2,并能用采集数据训练VLA,在真实Pick-and-Place上达到85.71%成功率。

Representative sources

Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.

Newer代理调试深度、工具路由与结构化约束成为新焦点Older代理发现、终端调度与可验证程序搜索升温