VLA主动感知继续推进,但从持续学习转向显式视觉重访
Continuing相对prev_3里“VLA走向持续学习与主动感知”的判断,今天这条线更具体地落在推理机制本身。VLA-Thinker把视觉重访做成显式工具调用,而不是只在语言里延长CoT。它在LIBERO达到97.5%,较OpenVLA-OFT提升6.5个百分点,Long子集提升10.4个百分点;在RoboTwin 2.0长/超长时程任务上也达到64.6%,较基线高18.1个百分点。这说明主动感知已从训练范式讨论,推进到可量化提升长时程成功率的系统设计。