VLA转向主动感知、轻量多模态融合与部署级系统优化
今天的机器人论文很集中:VLA继续升温,但重点不只是更大会说,而是更会看、更会并行、也更接近真实部署。最强信号来自主动感知。VLA-Thinker不再把图像当成一次性上下文,而是允许模型在推理中再次查看局部区域。这个改动很直接,但效果很强:在LIBERO上做到97.5%,比OpenVLA-OFT高6.5个百分点;在Long子集高10.4个百分点,说明它主要补上了长时程过程里的消歧和纠错。
Evolution3 signals · Continuing 1 · Shifting 1 · Emerging 1